前言
大家有沒有發(fā)現(xiàn)之前我們寫的爬蟲都有一個(gè)共性,就是只能爬取單純的html代碼,如果頁面是JS渲染的該怎么辦呢?如果我們單純?nèi)シ治鲆粋€(gè)個(gè)后臺(tái)的請求,手動(dòng)去摸索JS渲染的到的一些結(jié)果,那簡直沒天理了。所以,我們需要有一些好用的工具來幫助我們像瀏覽器一樣渲染JS處理的頁面。
其中有一個(gè)比較常用的工具,那就是
PhantomJS
Full web stack No browser required
PhantomJS is a headless WebKit scriptable with a JavaScript API. It has fast andnative support for various web standards: DOM handling, CSS selector, JSON, Canvas, and SVG.
PhantomJS是一個(gè)無界面的,可腳本編程的WebKit瀏覽器引擎。它原生支持多種web 標(biāo)準(zhǔn):DOM 操作,CSS選擇器,JSON,Canvas 以及SVG。
好,接下來我們就一起來了解一下這個(gè)神奇好用的庫的用法吧。
ps:服務(wù)器是騰訊云
安裝
PhantomJS安裝方法有兩種,一種是下載源碼之后自己來編譯,另一種是直接下載編譯好的二進(jìn)制文件。然而自己編譯需要的時(shí)間太長,而且需要挺多的磁盤空間。官方推薦直接下載二進(jìn)制文件然后安裝。
大家可以依照自己的開發(fā)平臺(tái)選擇不同的包進(jìn)行下載