在知乎看到一個(gè)可視化話(huà)題的文章,所以一時(shí)心血來(lái)潮,打算用Java也寫(xiě)一個(gè)爬蟲(chóng)并且集成到Spring中,結(jié)合ECharts生成人物關(guān)系,當(dāng)然,既然爬一次,個(gè)人信息也都要獲取到。
那么今天起起(結(jié)束日未知,目錄也會(huì)根據(jù)實(shí)際情況進(jìn)行更新),我將寫(xiě)一個(gè)系列的爬取知乎的爬蟲(chóng)文章,一直到數(shù)據(jù)可視化完成(完成后,爬蟲(chóng)部分將使用Scala重寫(xiě))。
1. 預(yù)計(jì)可視化部分包括
人物關(guān)系可視化
人員地理分布可視化
人員大學(xué)分布可視化
男女比例可視化
用戶(hù)點(diǎn)贊可視化
2. 預(yù)計(jì)內(nèi)容和目錄
開(kāi)篇感言
如何過(guò)濾重復(fù)數(shù)據(jù)
如何在爬取時(shí)創(chuàng)建人物關(guān)系
登陸請(qǐng)求分析
跟隨/關(guān)注請(qǐng)求分析
抓取頁(yè)面數(shù)據(jù)
jsoup抽取頁(yè)面內(nèi)容
優(yōu)化
使用多線(xiàn)程加速
使用隊(duì)列減少數(shù)據(jù)庫(kù)訪(fǎng)問(wèn)
網(wǎng)友評(píng)論