在上篇實現(xiàn)了電影詳情和短評數(shù)據(jù)的抓取。到目前為止,已經(jīng)抓了2000多部電影電視以及20000多的短評數(shù)據(jù)。

  數(shù)據(jù)本身沒有規(guī)律和價值,需要通過分析提煉成知識才有意義。抱著試試玩的想法,準(zhǔn)備做一個有關(guān)情感分析方面的統(tǒng)計,看看這些評論里面的小伙伴都抱著什么態(tài)度來看待自己看過的電影,懷著何種心情寫下的短評。

  鑒于爬取的是短評數(shù)據(jù),少則10來個字,多則百來個字,網(wǎng)上查找了下,發(fā)現(xiàn)Google開源的Word2Vec比較合適,于是今天搗鼓了一天,把自己遇到的問題和運(yùn)行的結(jié)果在這里做個總結(jié)。

 

  Word2Ve是google 推出的做詞嵌入(word embedding)的開源工具。 簡單的說,它在給定的語料庫上訓(xùn)練一個模型,然后會輸出所有出現(xiàn)在語料庫上的單詞的向量表示,這個向量稱為"word embedding"?;谶@個向量表示,可以計算詞與詞之間的關(guān)系,例如相似性(同義詞等),語義關(guān)聯(lián)性(中國 - 北京 = 英國 - 倫敦)等。

  算法的原理如果有興趣,可以找資料了解。

  這里使用Word2Vec的大致流程如下:

    1. 獲取數(shù)據(jù)(這里是豆瓣電影短評數(shù)據(jù))

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式