LSI__LDA:一種混合特征降維方法
摘要: LDA沒有考慮到數(shù)據(jù)輸入,在原始輸入空間上對(duì)所有詞進(jìn)行主題標(biāo)簽,因?qū)Ψ亲饔迷~同樣分配主題,致使主題分布不精確。針對(duì)其不足,提出了一種結(jié)合LSI和LDA的特征降維方法,預(yù)先采用LSI將原始詞空間映射到語義空間,再根據(jù)語義關(guān)系篩選出原始特征集中關(guān)鍵的特征,最后通過LDA模型在更小、更切題的文檔子集上采樣建模。對(duì)復(fù)旦大學(xué)中文語料進(jìn)行文本分類,新方法的分類精度較單獨(dú)使用LDA模型的效果提高了1.50%。實(shí)驗(yàn)表明提出的LSI__LDA模型在文本分類中有更好的分類性能。 (共5頁)
開通會(huì)員,享受整站包年服務(wù)