極簡(jiǎn)單之爬蟲(chóng)入門(mén)

發(fā)布時(shí)間：2016年12月14日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

1. 爬蟲(chóng)是什么

爬蟲(chóng)（Spider），這里當(dāng)然不是說(shuō)結(jié)網(wǎng)捉蟲(chóng)的蜘蛛那樣的生物學(xué)上的爬蟲(chóng)，這里說(shuō)的是互聯(lián)網(wǎng)上的爬蟲(chóng)，由程序員編寫(xiě)，具有一定的邏輯性能夠完成在指定范圍內(nèi)進(jìn)行信息收集的程序。

據(jù)說(shuō)爬蟲(chóng)占據(jù)了互聯(lián)網(wǎng)上60%多的流量，可想而知這個(gè)無(wú)比龐大的互聯(lián)網(wǎng)上有多少只辛辛苦苦矜矜業(yè)業(yè)的爬蟲(chóng)們啊。

爬蟲(chóng)，主要分為搜索引擎類(lèi)的爬蟲(chóng)和具有一定目標(biāo)的專(zhuān)用爬蟲(chóng)。前者索引整個(gè)web世界，讓人們能方便的搜索到自己想要的信息，一般網(wǎng)站也很歡迎這些爬蟲(chóng)。而后者有時(shí)候目的性比較強(qiáng)，爬取范圍也比較窄，一般收集數(shù)據(jù)用于二次加工或者數(shù)據(jù)分析等。這里主要講的就是第二種爬蟲(chóng)。

2. 爬蟲(chóng)怎么工作

爬蟲(chóng)的工作很簡(jiǎn)單，一句話(huà)概括就是找到目標(biāo)入口然后在目標(biāo)頁(yè)面獲取目標(biāo)內(nèi)容。

爬蟲(chóng)的原理也不復(fù)雜，主要是通過(guò)http或者其他協(xié)議，發(fā)送請(qǐng)求到目標(biāo)接口，然后解析返回的內(nèi)容成結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到本地。

分類(lèi)導(dǎo)航

極簡(jiǎn)單之爬蟲(chóng)入門(mén)

1. 爬蟲(chóng)是什么

2. 爬蟲(chóng)怎么工作

網(wǎng)友評(píng)論

更多精彩分享