爬蟲的基本流程

seo優(yōu)化培訓(xùn),網(wǎng)絡(luò)推廣培訓(xùn),網(wǎng)絡(luò)營銷培訓(xùn),SEM培訓(xùn),網(wǎng)絡(luò)優(yōu)化,在線營銷培訓(xùn)

網(wǎng)絡(luò)爬蟲的基本工作流程如下:

  • 首先選取一部分精心挑選的種子URL

  • 將種子URL加入任務(wù)隊列

  • 從待抓取URL隊列中取出待抓取的URL,解析DNS,并且得到主機的ip,并將URL對應(yīng)的網(wǎng)頁下載下來,存儲進已下載網(wǎng)頁庫中。此外,將這些URL放進已抓取URL隊列。

  • 分析已抓取URL隊列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊列,從而進入下一個循環(huán)。

  • 解析下載下來的網(wǎng)頁,將需要的數(shù)據(jù)解析出來。

  • 數(shù)據(jù)持久話,保存至數(shù)據(jù)庫中。

爬蟲的抓取策略

在爬蟲系統(tǒng)中,待抓取URL隊列是很重要的一部分。待抓取URL隊列中的URL以什么樣的順序排列也是一個很重要的問題,因為這涉及到先抓取那個頁面,后抓取哪個頁面。而決定這些URL排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略:

seo優(yōu)化培訓(xùn),網(wǎng)絡(luò)推廣培訓(xùn),網(wǎng)絡(luò)營銷培訓(xùn),SEM培訓(xùn),網(wǎng)絡(luò)優(yōu)化,在線營銷培訓(xùn)

  • 深度優(yōu)先策略(DFS)
    深度優(yōu)先策略是指爬蟲從某個URL開始,一個鏈接一個鏈接的爬取下去,直到處理完了某個鏈接所在的所有線路,才切換到其它的線路。
    此時抓取順序為:A -> B -> C -> D -> E -> F -> G -> H -> I -> J

  • 廣度優(yōu)先策略(BFS)
    寬度優(yōu)先遍歷策略的基本思路是,將新下載網(wǎng)頁中發(fā)現(xiàn)的鏈接直接插入待抓取URL隊列的末尾。也就是指網(wǎng)絡(luò)爬蟲會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。
    此時抓取順序為:A -> B -> E -> G -> H -> I -> C -> F -> J -> D

了解了爬蟲的工作流程和爬取策略后,就可以動手實現(xiàn)一個爬蟲了!那么在python里怎么實現(xiàn)呢?

技術(shù)棧

  • requests 人性化的請求發(fā)送

  • Bloom Filter 布隆過濾器,用于判重

  • XPath 解析HTML內(nèi)容

  • murmurhash

  • Anti crawler strategy 反爬蟲策略

  • MySQL 用戶數(shù)據(jù)存儲

網(wǎng)友評論