1. 爬蟲是什么

爬蟲(Spider),這里當(dāng)然不是說結(jié)網(wǎng)捉蟲的蜘蛛那樣的生物學(xué)上的爬蟲,這里說的是互聯(lián)網(wǎng)上的爬蟲,由程序員編寫,具有一定的邏輯性能夠完成在指定范圍內(nèi)進(jìn)行信息收集的程序。

據(jù)說爬蟲占據(jù)了互聯(lián)網(wǎng)上60%多的流量,可想而知這個(gè)無比龐大的互聯(lián)網(wǎng)上有多少只辛辛苦苦矜矜業(yè)業(yè)的爬蟲們啊。

爬蟲,主要分為搜索引擎類的爬蟲和具有一定目標(biāo)的專用爬蟲。前者索引整個(gè)web世界,讓人們能方便的搜索到自己想要的信息,一般網(wǎng)站也很歡迎這些爬蟲。而后者有時(shí)候目的性比較強(qiáng),爬取范圍也比較窄,一般收集數(shù)據(jù)用于二次加工或者數(shù)據(jù)分析等。這里主要講的就是第二種爬蟲。

2. 爬蟲怎么工作

爬蟲的工作很簡單,一句話概括就是找到目標(biāo)入口然后在目標(biāo)頁面獲取目標(biāo)內(nèi)容。

爬蟲的原理也不復(fù)雜,主要是通過http或者其他協(xié)議,發(fā)送請求到目標(biāo)接口,然后解析返回的內(nèi)容成結(jié)構(gòu)化數(shù)據(jù)存儲到本地。

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計(jì)培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式