爬蟲代理IP池

在公司做分布式深網(wǎng)爬蟲,搭建了一套穩(wěn)定的代理池服務(wù),為上千個(gè)爬蟲提供有效的代理,保證各個(gè)爬蟲拿到的都是對(duì)應(yīng)網(wǎng)站有效的代理IP,從而保證爬蟲快速穩(wěn)定的運(yùn)行,當(dāng)然在公司做的東西不能開源出來。不過呢,閑暇時(shí)間手癢,所以就想利用一些免費(fèi)的資源搞一個(gè)簡(jiǎn)單的代理池服務(wù)。

1、問題

  • 代理IP從何而來?
      剛自學(xué)爬蟲的時(shí)候沒有代理IP就去西刺、快代理之類有免費(fèi)代理的網(wǎng)站去爬,還是有個(gè)別代理能用。當(dāng)然,如果你有更好的代理接口也可以自己接入。
      免費(fèi)代理的采集也很簡(jiǎn)單,無非就是:訪問頁(yè)面頁(yè)面 —> 正則/xpath提取 —> 保存

  • 如何保證代理質(zhì)量?
      可以肯定免費(fèi)的代理IP大部分都是不能用的,不然別人為什么還提供付費(fèi)的(不過事實(shí)是很多代理商的付費(fèi)IP也不穩(wěn)定,也有很多是不能用)。所以采集回來的代理IP不能直接使用,可以寫檢測(cè)程序不斷的去用這些代理訪問一個(gè)穩(wěn)定的網(wǎng)站,看是否可以正常使用。這個(gè)過程可以使用多線程或異步的方式,因?yàn)闄z測(cè)代理是個(gè)很慢的過程。

  • 采集回來的代理如何存儲(chǔ)?
      這里不得不推薦一個(gè)高性能支持多種數(shù)據(jù)結(jié)構(gòu)的NoSQL數(shù)據(jù)庫(kù)SSDB,用于代理Redis。支持隊(duì)列、hash、set、k-v對(duì),支持T級(jí)別數(shù)據(jù)。是做分布式爬蟲很好中間存儲(chǔ)工具。

  • 如何讓爬蟲更簡(jiǎn)單的使用這些代理?
      答案肯定是做成服務(wù)咯,python有這么多的web框架,隨便拿一個(gè)來寫個(gè)api供爬蟲調(diào)用。這樣有很多好處,比如:當(dāng)爬蟲發(fā)現(xiàn)代理不能使用可以主動(dòng)通過api去delete代理IP,當(dāng)爬蟲發(fā)現(xiàn)代理池IP不夠用時(shí)可以主動(dòng)去refresh代理池。這樣比檢測(cè)程序更加靠譜。

    2、代理池設(shè)計(jì)

      代理池由四部分組成:

  • ProxyGetter:
      代理獲取接口,目前有5個(gè)免費(fèi)代理源,每調(diào)用一次就會(huì)抓取這個(gè)5個(gè)網(wǎng)站的最新代理放入DB,可自行添加額外的代理獲取接口;

  • DB:
      用于存放代理IP,現(xiàn)在暫時(shí)只支持SSDB。至于為什么選擇SSDB,大家可以參考這篇文章,個(gè)人覺得SSDB是個(gè)不錯(cuò)的Redis替代方案,如果你沒有用過SSDB,安裝起來也很簡(jiǎn)單,可以參考

    網(wǎng)友評(píng)論