原因就是這樣,作為技術喵,任何問題都不能阻礙一顆愛漫畫的心。所以問題就來了,挖掘機技修哪家強?

在bing上搜索Python、爬蟲框架。找到大家常用的框架。

Scrapy似乎是個很不錯的選擇。至于相對于其他框架的優(yōu)點,小喵沒有細查,至少這個框架是之前聽過的。但是在實現(xiàn)的時候發(fā)現(xiàn)有一些問題,scrapy不能直接抓取動態(tài)的頁面。小喵需要抓取的網(wǎng)站的漫畫都是使用Ajax生成的。需要自己分析各種數(shù)據(jù),這個有點麻煩。

那么有沒有可以渲染頁面的工具呢?像瀏覽器一樣的?有。

這里介紹兩個工具:

PhantomJs,可以理解是一個瀏覽器。不過它沒有界面,我們可以通過js的代碼模擬用戶的行為。這就要求了解它的api并有js基礎了。

Selenium,這是個瀏覽器自動化測試框架。它依賴于瀏覽器(這個瀏覽器也可以是PhantomJs),通過Selenium可以模擬用戶的行為。而且有Python接口,所以相對簡單一些。

我們這個爬蟲使用selenium + phantomjs來實現(xiàn)。

喲,這個爬蟲軟件應該有個響當當?shù)拿帧?。。就?nbsp;漫畫喵 吧,英文名Cartoon Cat。

下面我們一點點的介紹這個爬蟲的實現(xiàn)過程吧。

一、初生-環(huán)境搭建

延伸閱讀

學習是年輕人改變自己的最好方式-Java培訓,做最負責任的教育,學習改變命運,軟件學習,再就業(yè),大學生如何就業(yè),幫大學生找到好工作,lphotoshop培訓,電腦培訓,電腦維修培訓,移動軟件開發(fā)培訓,網(wǎng)站設計培訓,網(wǎng)站建設培訓學習是年輕人改變自己的最好方式