分類導(dǎo)航

詞向量-LRWE模型-更好地識別反義詞同義詞

發(fā)布時間：2017年07月26日作者： IT網(wǎng)絡(luò)文摘 (該文來自筆記，點擊查看原文)

上一節(jié)，我們介紹利用文本和知識庫融合訓(xùn)練詞向量的方法，如何更好的融合這些結(jié)構(gòu)化知識呢？使得訓(xùn)練得到的詞向量更具有泛化能力，能有效識別同義詞反義詞，又能學(xué)習到上下文信息還有不同級別的語義信息。

基于上述目標，我們嘗試基于CBOW模型，將知識庫中抽取的知識融合共同訓(xùn)練，提出LRWE模型。模型的結(jié)構(gòu)圖如下：

電腦培訓(xùn),計算機培訓(xùn),平面設(shè)計培訓(xùn),網(wǎng)頁設(shè)計培訓(xùn),美工培訓(xùn),Web培訓(xùn),Web前端開發(fā)培訓(xùn)

下面詳細介紹該模型的思想和求解方法。

1. LWE模型

在Word2vec的CBOW模型中，通過上下文的詞預(yù)測目標詞，目標是讓目標詞在其給定上下文出現(xiàn)的概率最大，所以詞向量訓(xùn)練的結(jié)果是與其上下文的詞相關(guān)聯(lián)的。然而 CBOW模型只考慮了詞語的局部上下文信息，無法很好的表達同義詞和反義詞等信息。例如下面的幾個case：

電腦培訓(xùn),計算機培訓(xùn),平面設(shè)計培訓(xùn),網(wǎng)頁設(shè)計培訓(xùn),美工培訓(xùn),Web培訓(xùn),Web前端開發(fā)培訓(xùn)

為了解決上述問題，本文將同義詞和反義詞等詞匯信息以外部知識的形式，作為詞向量訓(xùn)練中的監(jiān)督數(shù)據(jù)，讓訓(xùn)練得到的詞向量能學(xué)習到同義、反義等詞匯信息，從而能更好地區(qū)分同義詞和反義詞。

1.1 模型思想

記 ???? 的同義詞和反義詞集合為( ???? , ?????????? , ?????????? )，其中 SYN 表示同義詞集合，ANT 表示反義詞集合，我們的目標是已知目標詞對應(yīng)的同義詞集合和反義詞集合，預(yù)測目標詞，使得目標詞和它的同義詞距離盡可能相近，與反義詞距離盡可能遠。

例如“The cat sat on the mat.”，已知sat有同義詞seated，反義詞stand，來預(yù)測目標詞為sat。

該模型稱為詞匯信息模型，模型結(jié)構(gòu)圖如下：

電腦培訓(xùn),計算機培訓(xùn),平面設(shè)計培訓(xùn),網(wǎng)頁設(shè)計培訓(xùn),美工培訓(xùn),Web培訓(xùn),Web前端開發(fā)培訓(xùn)

對于一個詞語，我們根據(jù)它的同義詞和反義詞預(yù)測目標詞，最大化詞語和它的同義詞同時出現(xiàn)的概率，并降低詞語和它反義詞同時出現(xiàn)的概率。根據(jù)這個目標，定義以下的目標函數(shù):

電腦培訓(xùn),計算機培訓(xùn),平面設(shè)計培訓(xùn),網(wǎng)頁設(shè)計培訓(xùn),美工培訓(xùn),Web培訓(xùn),Web前端開發(fā)培訓(xùn)

我們目標是在基于上下文的CBOW語言模型訓(xùn)練過程中，加入同義詞反義詞信息作為監(jiān)督，使得訓(xùn)練所得詞向量能學(xué)習到同義和反義知識?；谠撓敕?，我們提出基于詞匯信息的詞向量模型(Lexical Information Word

我想了解如何學(xué)習

分類導(dǎo)航

詞向量-LRWE模型-更好地識別反義詞同義詞

延伸閱讀

我想了解如何學(xué)習