分類導(dǎo)航

Java豆瓣電影爬蟲——使用Word2Vec分析電影短評數(shù)據(jù)

發(fā)布時間：2017年03月15日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點擊查看原文)

　在上篇實現(xiàn)了電影詳情和短評數(shù)據(jù)的抓取。到目前為止，已經(jīng)抓了2000多部電影電視以及20000多的短評數(shù)據(jù)。

　　數(shù)據(jù)本身沒有規(guī)律和價值，需要通過分析提煉成知識才有意義。抱著試試玩的想法，準(zhǔn)備做一個有關(guān)情感分析方面的統(tǒng)計，看看這些評論里面的小伙伴都抱著什么態(tài)度來看待自己看過的電影，懷著何種心情寫下的短評。

　　鑒于爬取的是短評數(shù)據(jù)，少則10來個字，多則百來個字，網(wǎng)上查找了下，發(fā)現(xiàn)Google開源的Word2Vec比較合適，于是今天搗鼓了一天，把自己遇到的問題和運(yùn)行的結(jié)果在這里做個總結(jié)。

　　Word2Ve是google 推出的做詞嵌入（word embedding）的開源工具。簡單的說，它在給定的語料庫上訓(xùn)練一個模型，然后會輸出所有出現(xiàn)在語料庫上的單詞的向量表示，這個向量稱為"word embedding"?；谶@個向量表示，可以計算詞與詞之間的關(guān)系，例如相似性(同義詞等)，語義關(guān)聯(lián)性（中國 - 北京 = 英國 - 倫敦）等。

　　算法的原理如果有興趣，可以找資料了解。

　　這里使用Word2Vec的大致流程如下：

　　　　1. 獲取數(shù)據(jù)（這里是豆瓣電影短評數(shù)據(jù)）

我想了解如何學(xué)習(xí)

分類導(dǎo)航

Java豆瓣電影爬蟲——使用Word2Vec分析電影短評數(shù)據(jù)

延伸閱讀

我想了解如何學(xué)習(xí)