在知乎看到一個(gè)可視化話(huà)題的文章,所以一時(shí)心血來(lái)潮,打算用Java也寫(xiě)一個(gè)爬蟲(chóng)并且集成到Spring中,結(jié)合ECharts生成人物關(guān)系,當(dāng)然,既然爬一次,個(gè)人信息也都要獲取到。
那么今天起起(結(jié)束日未知,目錄也會(huì)根據(jù)實(shí)際情況進(jìn)行更新),我將寫(xiě)一個(gè)系列的爬取知乎的爬蟲(chóng)文章,一直到數(shù)據(jù)可視化完成(完成后,爬蟲(chóng)部分將使用Scala重寫(xiě))。

1. 預(yù)計(jì)可視化部分包括

  1. 人物關(guān)系可視化

  2. 人員地理分布可視化

  3. 人員大學(xué)分布可視化

  4. 男女比例可視化

  5. 用戶(hù)點(diǎn)贊可視化

2. 預(yù)計(jì)內(nèi)容和目錄

  1. 開(kāi)篇感言

  2. 爬蟲(chóng)流程設(shè)計(jì)

    1. 如何過(guò)濾重復(fù)數(shù)據(jù)

    2. 如何在爬取時(shí)創(chuàng)建人物關(guān)系

  3. 請(qǐng)求分析

    1. 登陸請(qǐng)求分析

    2. 跟隨/關(guān)注請(qǐng)求分析

  4. 抓取頁(yè)面數(shù)據(jù)

    1. jsoup抽取頁(yè)面內(nèi)容

  5. 優(yōu)化

    1. 使用多線(xiàn)程加速

    2. 使用隊(duì)列減少數(shù)據(jù)庫(kù)訪(fǎng)問(wèn)

      網(wǎng)友評(píng)論