一、前言


在上一篇博文中,我們的爬蟲面臨著一個(gè)問題,在爬取Unsplash網(wǎng)站的時(shí)候,由于網(wǎng)站是下拉刷新,并沒有分頁(yè)。所以不能夠通過頁(yè)碼獲取頁(yè)面的url來分別發(fā)送網(wǎng)絡(luò)請(qǐng)求。我也嘗試了其他方式,比如下拉的時(shí)候監(jiān)控http請(qǐng)求,看看請(qǐng)求是否有規(guī)律可以模擬。后來發(fā)現(xiàn)請(qǐng)求并沒有規(guī)律,也就是不能夠模擬http請(qǐng)求來獲取新的數(shù)據(jù)(也可能是我水平有限,哪位童鞋找到了規(guī)律一定要告訴我哦)。那么就只有模擬下拉操作了。

想要模擬下拉操作,我們需要用到兩個(gè)工具,一個(gè)是PhatomJs,一個(gè)是Selenium。
PhatomJS其實(shí)就是一個(gè)沒有界面的瀏覽器,最主要的功能是能夠讀取js加載的頁(yè)面。
Selenium實(shí)質(zhì)上是一個(gè)自動(dòng)化測(cè)試工具,能夠模擬用戶的一些行為操作,比如下拉網(wǎng)頁(yè)。

一直有個(gè)說法,Python + PhatomJS + Selenium 是爬蟲的無敵三件套,基本能夠?qū)崿F(xiàn)所有爬蟲需求。

OK,我們分別介紹下他們的使用,然后開始我們的實(shí)戰(zhàn)。

二、運(yùn)行環(huán)境


我的運(yùn)行環(huán)境如下: