爬蟲是一個比較容易上手的技術(shù),也許花5分鐘看一篇文檔就能爬取單個網(wǎng)頁上的數(shù)據(jù)。但對于大規(guī)模爬蟲,完全就是另一回事,并不是1*n這么簡單,還會衍生出許多別的問題。

系統(tǒng)的大規(guī)模爬蟲流程如圖所示。

先檢查是否有API

API是網(wǎng)站官方提供的數(shù)據(jù)接口,如果通過調(diào)用API采集數(shù)據(jù),則相當(dāng)于在網(wǎng)站允許的范圍內(nèi)采集,這樣既不會有道德法律風(fēng)險,也沒有網(wǎng)站故意設(shè)置的障礙;不過調(diào)用API接口的訪問則處于網(wǎng)站的控制中,網(wǎng)站可以用來收費,可以用來限制訪問上限等。整體來看,如果數(shù)據(jù)采集的需求并不是很獨特,那么有API則應(yīng)優(yōu)先采用調(diào)用API的方式。

數(shù)據(jù)結(jié)構(gòu)分析和數(shù)據(jù)存儲