上個(gè)星期五(16/11/18)去看了馮小剛的最新電影《我不是潘金蓮》,電影很長(zhǎng),有點(diǎn)黑色幽默??赐曛笪揖腿ブ?,豆瓣電影等看看大家對(duì)于這部電影的評(píng)價(jià)。果然這是一部很有爭(zhēng)議的電影,無論是在知乎還是豆瓣,大家對(duì)這部電影褒貶不一,有的說拍的好,寓意深刻,具有很強(qiáng)的現(xiàn)實(shí)諷刺意味,也有的說故作矯情,是一部爛片。大家眾說紛紜,那么這部電影到底怎么樣呢?我想還是用事實(shí)說話比較好。我想到最近剛好我學(xué)習(xí)了一段時(shí)間的爬蟲了,也知道詞云可以形象地反映詞語分布。所以我決定親自動(dòng)手對(duì)《我不是潘金蓮》制作一個(gè)詞云。

     先說一下使用的工具:python2.7.12  wordcloud1.2.1 selenium2.53.6 jieba(一個(gè)中文分詞工具) 分析的文本來源為豆瓣電影下《我不是潘金蓮》的1.6W+評(píng)論。     

  selenium  是一個(gè)可以操縱瀏覽器的爬蟲工具,對(duì)于抓取動(dòng)態(tài)頁面(js生成的頁面)非常方便。這里之所以使用selenium的一個(gè)主要原因是,電影的評(píng)論只有在登錄之后才可以全部抓取,如果使用urllib2等標(biāo)準(zhǔn)庫模擬登錄,因?yàn)檫€要處理驗(yàn)證碼等,略顯麻煩,而使用selenium則非常簡(jiǎn)便。

  jieba 是一個(gè)優(yōu)秀的中文分詞工具,功能強(qiáng)大并且使用簡(jiǎn)便,這里因?yàn)樯婕暗街形模瑆ordcloud對(duì)于中文的分詞支持不是特別好,所以需要我們手動(dòng)分詞,我把這個(gè)任務(wù)交給了jieba。

   制作詞云的流程如下:

   1.使用selenium 登錄豆瓣,抓取《我不是潘金蓮》下所有電影評(píng)論,并且保存到txt文件(一行是一條評(píng)論)

   2. 使用jieba 對(duì)于評(píng)論進(jìn)行分詞,得到新的文本

   3. 對(duì)于新的文本 使用wordcloud 進(jìn)行制作詞云

 話不多說,下面直接貼代碼:

 

iOS培訓(xùn),Swift培訓(xùn),蘋果開發(fā)培訓(xùn),移動(dòng)開發(fā)培訓(xùn)

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動(dòng)軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計(jì)培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式