之前一直不太了解分布式爬蟲設(shè)計思路,于是在github上搜了一個簡易的分布式爬蟲,學(xué)習(xí)了一下實(shí)現(xiàn)思路,并做一下對應(yīng)筆記
分布式爬蟲主要涉及到三個方面。
1.模擬登錄;
2.master廣度遍歷,將待爬頁push到隊列(redis);
3.slave從redis中取出待爬頁,進(jìn)行深度遍歷
下面分三個方面分別闡述,以知乎為例。
一.模擬登錄
1.首先可以自己手動登陸一次,注意登陸時post的數(shù)據(jù)以及url
這里post數(shù)據(jù)格式為:
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26