Python爬蟲小白入門（四）PhatomJS+Selenium第一篇

發(fā)布時間：2017年04月13日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

一、前言

在上一篇博文中，我們的爬蟲面臨著一個問題，在爬取Unsplash網(wǎng)站的時候，由于網(wǎng)站是下拉刷新，并沒有分頁。所以不能夠通過頁碼獲取頁面的url來分別發(fā)送網(wǎng)絡(luò)請求。我也嘗試了其他方式，比如下拉的時候監(jiān)控http請求，看看請求是否有規(guī)律可以模擬。后來發(fā)現(xiàn)請求并沒有規(guī)律，也就是不能夠模擬http請求來獲取新的數(shù)據(jù)（也可能是我水平有限，哪位童鞋找到了規(guī)律一定要告訴我哦）。那么就只有模擬下拉操作了。

想要模擬下拉操作，我們需要用到兩個工具，一個是PhatomJs，一個是Selenium。
PhatomJS其實就是一個沒有界面的瀏覽器，最主要的功能是能夠讀取js加載的頁面。
Selenium實質(zhì)上是一個自動化測試工具，能夠模擬用戶的一些行為操作，比如下拉網(wǎng)頁。

一直有個說法，Python + PhatomJS + Selenium 是爬蟲的無敵三件套，基本能夠?qū)崿F(xiàn)所有爬蟲需求。

OK，我們分別介紹下他們的使用，然后開始我們的實戰(zhàn)。

二、運行環(huán)境

我的運行環(huán)境如下：

系統(tǒng)版本
Windows10。
Python版本
Python3.5，推薦使用Anaconda 這個科學(xué)計算版本，主要是因為它自帶一個包管理工具，可以解決有些包安裝錯誤的問題。去
網(wǎng)友評論

分類導(dǎo)航

Python爬蟲小白入門（四）PhatomJS+Selenium第一篇

一、前言

二、運行環(huán)境

網(wǎng)友評論

更多精彩分享

分類導(dǎo)航

Python爬蟲小白入門（四）PhatomJS+Selenium第一篇

一、前言

二、運行環(huán)境

網(wǎng)友評論

更多精彩分享

一、前言

二、運行環(huán)境