一. LSA
1. LSA原理
LSA(latent semantic analysis)潛在語義分析,也被稱為 LSI(latent semantic index),是 Scott Deerwester, Susan T. Dumais 等人在 1990 年提出來的一種新的索引和檢索方法。該方法和傳統(tǒng)向量空間模型(vector space model)一樣使用向量來表示詞(terms)和文檔(documents),并通過向量間的關(guān)系(如夾角)來判斷詞及文檔間的關(guān)系;不同的是,LSA 將詞和文檔映射到潛在語義空間,從而去除了原始向量空間中的一些“噪音”,提高了信息檢索的精確度。
引用吳軍老師在 “矩陣計(jì)算與文本處理中的分類問題” 中的總結(jié):
三個(gè)矩陣有非常清楚的物理含義。第一個(gè)矩陣 U 中的每一行表示意思相關(guān)的一類詞,其中的每個(gè)非零元素表示這類詞中每個(gè)詞的重要性(或者說相關(guān)性),數(shù)值越大越相關(guān)。最后一個(gè)矩陣 V 中的每一列表示同一主題一類文章,其中每個(gè)元素表示這類文章中每篇文章的相關(guān)性。中間的矩陣 D 則表示類詞和文章類之間的相關(guān)性。因此,我們只要對(duì)關(guān)聯(lián)矩陣 X 進(jìn)行一次奇異值分解,我們就可以同時(shí)完成了近義詞分類和文章的分類。(同時(shí)得到每類文章和每類詞的相關(guān)性)。
傳統(tǒng)向量空間模型使用精確的詞匹配,即精確匹配用戶輸入的詞與向量空間中存在的詞,無法解決一詞多義(polysemy)和一義多詞(synonymy)的問題。實(shí)際上在搜索中,我們實(shí)際想要去比較的不是詞,而是隱藏在詞之后的意義和概念。
LSA 的核心思想是將詞和文檔映射到潛在語義空間,再比較其相似性。
舉個(gè)簡單的栗子,對(duì)一個(gè) Term-Document 矩陣做SVD分解,并將左奇異向量和右奇異向量都取后2維(之前是3維的矩陣),投影到一個(gè)平面上(潛在語義空間),可以得到:
在圖上,每一個(gè)紅色的點(diǎn),都表示一個(gè)詞,每一個(gè)藍(lán)色的點(diǎn),都表示一篇文檔,這樣我們可以對(duì)這些詞和文檔進(jìn)行聚類,比如說 stock 和 market 可以放在一類,因?yàn)樗麄兝鲜浅霈F(xiàn)在一起,real 和 estate 可以放在一類,dads,guide 這種詞就看起來有點(diǎn)孤立了,我們就不對(duì)他們進(jìn)行合并了。按這樣聚類出現(xiàn)的效果,可以提取文檔集合中的近義詞,這樣當(dāng)用戶檢索文檔的時(shí)候,是用語義級(jí)別(近義詞集合)去檢索了,而不是之前的詞的級(jí)別。這樣一減少我們的檢索、存儲(chǔ)量,因?yàn)檫@樣壓縮的文檔集合和PCA是異曲同工的,二可以提高我們的用戶體驗(yàn),用戶輸入一個(gè)詞,我們可以在這個(gè)詞的近義詞的集合中去找,這是傳統(tǒng)的索引無法做到的。
2. LSA的優(yōu)點(diǎn)
1)低維空間表示可以刻畫同義詞,同義詞會(huì)對(duì)應(yīng)著相同或相似的主題。
2)降維可去除部分噪聲,是特征更魯棒。
3)充分利用冗余數(shù)據(jù)。
4)無監(jiān)督/完全自動(dòng)化。
5)與語言無關(guān)。
3. LSA的缺點(diǎn)
1)LSA可以處理向量空間模型無法解決的一義多詞(synonymy)問題,但不能解決
延伸閱讀
學(xué)習(xí)是年輕人改變自己的最好方式