Python爬蟲從入門到放棄（十七）之 Scrapy框架中Download Middleware用法Python爬蟲從入門到放棄（十七）之 Scrapy框架中Download Middleware用法

發(fā)布時間：2017年07月18日作者：IT網(wǎng)絡(luò)文摘

這篇文章中寫了常用的下載中間件的用法和例子。
Downloader Middleware處理的過程主要在調(diào)度器發(fā)送requests請求的時候以及網(wǎng)頁將response結(jié)果返回給spiders的時候，所以從這里我們可以知道下載中間件是介于Scrapy的request/response處理的鉤子，用于修改Scrapy request和response。

Android培訓(xùn),安卓培訓(xùn),手機開發(fā)培訓(xùn),移動開發(fā)培訓(xùn),云培訓(xùn)培訓(xùn)

編寫自己的下載器中間件

編寫下載器中間件，需要定義以下一個或者多個方法的python類

為了演示這里的中間件的使用方法，這里創(chuàng)建一個項目作為學習，這里的項目是關(guān)于爬去httpbin.org這個網(wǎng)站
scrapy startproject httpbintest
cd httpbintest
scrapy genspider example example.com

創(chuàng)建好后的目錄結(jié)構(gòu)如下：

Android培訓(xùn),安卓培訓(xùn),手機開發(fā)培訓(xùn),移動開發(fā)培訓(xùn),云培訓(xùn)培訓(xùn)

這里我們先寫一個簡單的代理中間件來實現(xiàn)ip的偽裝
創(chuàng)建好爬蟲之后我們講httpbin.py中的parse方法改成：

    def parse(self, response):        print(response.text)

然后通過命令行啟動爬蟲：scrapy crawl httpbin

Android培訓(xùn),安卓培訓(xùn),手機開發(fā)培訓(xùn),移動開發(fā)培訓(xùn),云培訓(xùn)培訓(xùn)

在最下面我們可以看到"origin": "114.250.88.66"
我們在查看自己的ip:

Android培訓(xùn),安卓培訓(xùn),手機開發(fā)培訓(xùn),移動開發(fā)培訓(xùn),云培訓(xùn)培訓(xùn)

而我們要做就是通過代理中間件來實現(xiàn)ip的偽裝,在middleares.py中寫如下的中間件類：

        		網(wǎng)友評論

分類導(dǎo)航

Python爬蟲從入門到放棄（十七）之 Scrapy框架中Download Middleware用法Python爬蟲從入門到放棄（十七）之 Scrapy框架中Download Middleware用法

編寫自己的下載器中間件

網(wǎng)友評論

更多精彩分享