基于LSI理論的文本自動聚類研究
摘要: 結(jié)合潛性語義索引(latent semantic index,LSI)理論和K-means聚類法,提出一種改進(jìn)的文本自動聚類方法,即首先利用N-gram統(tǒng)計法抽取文檔關(guān)鍵詞,并應(yīng)用潛性語義索引LSI對構(gòu)建文檔的向量空間模型進(jìn)行降維,然后采用K-means算法進(jìn)行文本聚類。實(shí)驗(yàn)表明,該算法進(jìn)行文本聚類的準(zhǔn)確度最高可達(dá)84.7%。 (共4頁)
開通會員,享受整站包年服務(wù)