1. 爬蟲是什么
爬蟲(Spider),這里當(dāng)然不是說結(jié)網(wǎng)捉蟲的蜘蛛那樣的生物學(xué)上的爬蟲,這里說的是互聯(lián)網(wǎng)上的爬蟲,由程序員編寫,具有一定的邏輯性能夠完成在指定范圍內(nèi)進(jìn)行信息收集的程序。
據(jù)說爬蟲占據(jù)了互聯(lián)網(wǎng)上60%多的流量,可想而知這個(gè)無比龐大的互聯(lián)網(wǎng)上有多少只辛辛苦苦矜矜業(yè)業(yè)的爬蟲們啊。
爬蟲,主要分為搜索引擎類的爬蟲和具有一定目標(biāo)的專用爬蟲。前者索引整個(gè)web世界,讓人們能方便的搜索到自己想要的信息,一般網(wǎng)站也很歡迎這些爬蟲。而后者有時(shí)候目的性比較強(qiáng),爬取范圍也比較窄,一般收集數(shù)據(jù)用于二次加工或者數(shù)據(jù)分析等。這里主要講的就是第二種爬蟲。
2. 爬蟲怎么工作
爬蟲的工作很簡單,一句話概括就是找到目標(biāo)入口然后在目標(biāo)頁面獲取目標(biāo)內(nèi)容。
爬蟲的原理也不復(fù)雜,主要是通過http或者其他協(xié)議,發(fā)送請求到目標(biāo)接口,然后解析返回的內(nèi)容成結(jié)構(gòu)化數(shù)據(jù)存儲到本地。