在知乎看到一個可視化話題的文章,所以一時心血來潮,打算用Java也寫一個爬蟲并且集成到Spring中,結合ECharts生成人物關系,當然,既然爬一次,個人信息也都要獲取到。
那么今天起起(結束日未知,目錄也會根據(jù)實際情況進行更新),我將寫一個系列的爬取知乎的爬蟲文章,一直到數(shù)據(jù)可視化完成(完成后,爬蟲部分將使用Scala重寫)。

1. 預計可視化部分包括

  1. 人物關系可視化

  2. 人員地理分布可視化

  3. 人員大學分布可視化

  4. 男女比例可視化

  5. 用戶點贊可視化

2. 預計內容和目錄

  1. 開篇感言

  2. 爬蟲流程設計

    1. 如何過濾重復數(shù)據(jù)

    2. 如何在爬取時創(chuàng)建人物關系

  3. 請求分析

    1. 登陸請求分析

    2. 跟隨/關注請求分析

  4. 抓取頁面數(shù)據(jù)

    1. jsoup抽取頁面內容

  5. 優(yōu)化

    1. 使用多線程加速

    2. 使用隊列減少數(shù)據(jù)庫訪問

      延伸閱讀

      學習是年輕人改變自己的最好方式-Java培訓,做最負責任的教育,學習改變命運,軟件學習,再就業(yè),大學生如何就業(yè),幫大學生找到好工作,lphotoshop培訓,電腦培訓,電腦維修培訓,移動軟件開發(fā)培訓,網(wǎng)站設計培訓,網(wǎng)站建設培訓學習是年輕人改變自己的最好方式