一年一度的虐狗節(jié)剛過去不久,朋友圈各種曬,曬自拍,曬娃,曬美食,秀恩愛的。程序員在曬什么,程序員在加班。但是禮物還是少不了的,送什么好?作為程序員,我準備了一份特別的禮物,用以往發(fā)的微博數(shù)據(jù)打造一顆“愛心”,我想她一定會感動得哭了吧。哈哈
準備工作
有了想法之后就開始行動了,自然最先想到的就是用 Python 了,大體思路就是把微博數(shù)據(jù)爬下來,數(shù)據(jù)經(jīng)過清洗加工后再進行分詞處理,處理后的數(shù)據(jù)交給詞云工具,配合科學計算工具和繪圖工具制作成圖像出來,涉及到的工具包有:
requests 用于網(wǎng)絡請求爬取微博數(shù)據(jù),結(jié)巴分詞進行中文分詞處理,詞云處理庫 wordcloud,圖片處理庫 Pillow,科學計算工具 NumPy ,類似于 MATLAB 的 2D 繪圖庫 Matplotlib
工具安裝
安裝這些工具包時,不同系統(tǒng)平臺有可能出現(xiàn)不一樣的錯誤,wordcloud,requests,jieba 都可以通過普通的 pip 方式在線安裝,
pip install wordcloud pip install requests pip install jieba
在Windows 平臺安裝 Pillow,NumPy,Matplotlib 直接用 pip 在線安裝會出現(xiàn)各種問題,推薦的一種方式是在一個叫 Python Extension Packages for Windows 1 的第三方平臺下載 相應的 .whl 文件安裝。可以根據(jù)自己的系統(tǒng)環(huán)境選擇下載安裝 cp27 對應 python2.7,amd64 對應 64 位系統(tǒng)。下載到本地后進行安裝
pip install Pillow-4.0.0-cp27-cp27m-win_amd64.whl pip install scipy-0.18.0-cp27-cp27m-win_amd64.whl pip install numpy-1.11.3+mkl-cp27-cp27m-win_amd64.whl pip install matplotlib-1.5.3-cp27-cp27m-win_amd64.whl
其他平臺可根據(jù)錯誤提示 Google 解決?;蛘咧苯踊?Anaconda 開發(fā),它是 Python 的一個分支,內(nèi)置了大量科學計算、機器學習的模塊 。