之前一直不太了解分布式爬蟲設(shè)計(jì)思路,于是在github上搜了一個(gè)簡易的分布式爬蟲,學(xué)習(xí)了一下實(shí)現(xiàn)思路,并做一下對應(yīng)筆記
分布式爬蟲主要涉及到三個(gè)方面。
1.模擬登錄;
2.master廣度遍歷,將待爬頁push到隊(duì)列(redis);
3.slave從redis中取出待爬頁,進(jìn)行深度遍歷
下面分三個(gè)方面分別闡述,以知乎為例。
一.模擬登錄
1.首先可以自己手動登陸一次,注意登陸時(shí)post的數(shù)據(jù)以及url
這里post數(shù)據(jù)格式為:
網(wǎng)友評論