極簡單之爬蟲入門

發(fā)布時(shí)間：2017年03月17日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

1. 爬蟲是什么

爬蟲（Spider），這里當(dāng)然不是說結(jié)網(wǎng)捉蟲的蜘蛛那樣的生物學(xué)上的爬蟲，這里說的是互聯(lián)網(wǎng)上的爬蟲，由程序員編寫，具有一定的邏輯性能夠完成在指定范圍內(nèi)進(jìn)行信息收集的程序。

據(jù)說爬蟲占據(jù)了互聯(lián)網(wǎng)上60%多的流量，可想而知這個(gè)無比龐大的互聯(lián)網(wǎng)上有多少只辛辛苦苦矜矜業(yè)業(yè)的爬蟲們啊。

爬蟲，主要分為搜索引擎類的爬蟲和具有一定目標(biāo)的專用爬蟲。前者索引整個(gè)web世界，讓人們能方便的搜索到自己想要的信息，一般網(wǎng)站也很歡迎這些爬蟲。而后者有時(shí)候目的性比較強(qiáng)，爬取范圍也比較窄，一般收集數(shù)據(jù)用于二次加工或者數(shù)據(jù)分析等。這里主要講的就是第二種爬蟲。

2. 爬蟲怎么工作

爬蟲的工作很簡單，一句話概括就是找到目標(biāo)入口然后在目標(biāo)頁面獲取目標(biāo)內(nèi)容。

爬蟲的原理也不復(fù)雜，主要是通過http或者其他協(xié)議，發(fā)送請求到目標(biāo)接口，然后解析返回的內(nèi)容成結(jié)構(gòu)化數(shù)據(jù)存儲到本地。

分類導(dǎo)航

極簡單之爬蟲入門

1. 爬蟲是什么

2. 爬蟲怎么工作

網(wǎng)友評論

更多精彩分享