一、前言
在上一篇博文中,我們的爬蟲面臨著一個問題,在爬取Unsplash網(wǎng)站的時候,由于網(wǎng)站是下拉刷新,并沒有分頁。所以不能夠通過頁碼獲取頁面的url來分別發(fā)送網(wǎng)絡(luò)請求。我也嘗試了其他方式,比如下拉的時候監(jiān)控http請求,看看請求是否有規(guī)律可以模擬。后來發(fā)現(xiàn)請求并沒有規(guī)律,也就是不能夠模擬http請求來獲取新的數(shù)據(jù)(也可能是我水平有限,哪位童鞋找到了規(guī)律一定要告訴我哦)。那么就只有模擬下拉操作了。
想要模擬下拉操作,我們需要用到兩個工具,一個是PhatomJs,一個是Selenium。
PhatomJS其實就是一個沒有界面的瀏覽器,最主要的功能是能夠讀取js加載的頁面。
Selenium實質(zhì)上是一個自動化測試工具,能夠模擬用戶的一些行為操作,比如下拉網(wǎng)頁。
一直有個說法,Python + PhatomJS + Selenium 是爬蟲的無敵三件套,基本能夠?qū)崿F(xiàn)所有爬蟲需求。
OK,我們分別介紹下他們的使用,然后開始我們的實戰(zhàn)。
二、運行環(huán)境
我的運行環(huán)境如下:
系統(tǒng)版本
Windows10。Python版本
Python3.5,推薦使用Anaconda 這個科學(xué)計算版本,主要是因為它自帶一個包管理工具,可以解決有些包安裝錯誤的問題。去網(wǎng)友評論