之前一直不太了解分布式爬蟲設(shè)計思路,于是在github上搜了一個簡易的分布式爬蟲,學(xué)習(xí)了一下實(shí)現(xiàn)思路,并做一下對應(yīng)筆記

分布式爬蟲主要涉及到三個方面。

1.模擬登錄;

2.master廣度遍歷,將待爬頁push到隊列(redis);

3.slave從redis中取出待爬頁,進(jìn)行深度遍歷

下面分三個方面分別闡述,以知乎為例。

一.模擬登錄

1.首先可以自己手動登陸一次,注意登陸時post的數(shù)據(jù)以及url

這里post數(shù)據(jù)格式為:

Android培訓(xùn),安卓培訓(xùn),手機(jī)開發(fā)培訓(xùn),移動開發(fā)培訓(xùn),云培訓(xùn)培訓(xùn)

        		

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式