網(wǎng)頁(yè)爬蟲--scrapy進(jìn)階

發(fā)布時(shí)間：2017年01月06日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

1. 站點(diǎn)選取

現(xiàn)在的大網(wǎng)站基本除了pc端都會(huì)有移動(dòng)端，所以需要先確定爬哪個(gè)。

比如爬新浪微博，有以下幾個(gè)選擇：

www.weibo.com，主站
www.weibo.cn，簡(jiǎn)化版
m.weibo.cn，移動(dòng)版

上面三個(gè)中，主站的微博數(shù)據(jù)是動(dòng)態(tài)加載的，意味著光看源碼是看不到數(shù)據(jù)的，想爬的話要么搞清楚其api訪問情況，要么模擬js，那樣的話花的力氣可能就有點(diǎn)多了。weibo.cn是一個(gè)簡(jiǎn)化版，數(shù)據(jù)能直接從網(wǎng)頁(yè)源代碼中解析出來(lái)，但使用正則或xpath取網(wǎng)頁(yè)中的元素仍然是無(wú)聊且費(fèi)時(shí)的，更不用說偶爾的頁(yè)面結(jié)構(gòu)錯(cuò)誤更讓人抓狂。相比之下，移動(dòng)版的爬蟲最好寫，因?yàn)橐苿?dòng)版能直接拿到j(luò)son格式的數(shù)據(jù)。

一般來(lái)說，有移動(dòng)版的網(wǎng)站優(yōu)先爬移動(dòng)版，會(huì)節(jié)省很多力氣。

2. 模擬登錄

現(xiàn)在需要登錄才能正常瀏覽的網(wǎng)站的越來(lái)越多了，對(duì)爬蟲也越來(lái)越不友好...所以模擬登錄在不少場(chǎng)合都是必不可少的。

首先，最簡(jiǎn)單的模擬登錄是只有用戶名密碼的登錄。這時(shí)候只需要在發(fā)

分類導(dǎo)航

網(wǎng)頁(yè)爬蟲--scrapy進(jìn)階

1. 站點(diǎn)選取

2. 模擬登錄

網(wǎng)友評(píng)論

更多精彩分享