分類導(dǎo)航

爬蟲代碼閱讀－登陸,廣度遍歷與深度遍歷

發(fā)布時間：2016年12月29日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點(diǎn)擊查看原文)

之前一直不太了解分布式爬蟲設(shè)計思路，于是在github上搜了一個簡易的分布式爬蟲，學(xué)習(xí)了一下實(shí)現(xiàn)思路，并做一下對應(yīng)筆記

分布式爬蟲主要涉及到三個方面。

1.模擬登錄；

2.master廣度遍歷，將待爬頁push到隊列（redis）；

3.slave從redis中取出待爬頁，進(jìn)行深度遍歷

下面分三個方面分別闡述，以知乎為例。

一.模擬登錄

1.首先可以自己手動登陸一次，注意登陸時post的數(shù)據(jù)以及url

這里post數(shù)據(jù)格式為：

        		延伸閱讀
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖
        			2017-07-26
        			
        			
        			
        			消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】
        			2017-07-26
        			
        			
        			
        			詞向量-LRWE模型-更好地識別反義詞同義詞
        			2017-07-26
        			
        			
        			
        			從棧不平衡問題 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解
        			2017-07-26
        			
        			
        			
        			阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析
        			2017-07-26
        			
        			
        			
        			集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		學(xué)習(xí)是年輕人改變自己的最好方式

分類導(dǎo)航

爬蟲代碼閱讀－登陸,廣度遍歷與深度遍歷

一.模擬登錄

延伸閱讀

我想了解如何學(xué)習(xí)