1. 爬蟲是什么
爬蟲(Spider),這里當然不是說結(jié)網(wǎng)捉蟲的蜘蛛那樣的生物學上的爬蟲,這里說的是互聯(lián)網(wǎng)上的爬蟲,由程序員編寫,具有一定的邏輯性能夠完成在指定范圍內(nèi)進行信息收集的程序。
據(jù)說爬蟲占據(jù)了互聯(lián)網(wǎng)上60%多的流量,可想而知這個無比龐大的互聯(lián)網(wǎng)上有多少只辛辛苦苦矜矜業(yè)業(yè)的爬蟲們啊。
爬蟲,主要分為搜索引擎類的爬蟲和具有一定目標的專用爬蟲。前者索引整個web世界,讓人們能方便的搜索到自己想要的信息,一般網(wǎng)站也很歡迎這些爬蟲。而后者有時候目的性比較強,爬取范圍也比較窄,一般收集數(shù)據(jù)用于二次加工或者數(shù)據(jù)分析等。這里主要講的就是第二種爬蟲。
2. 爬蟲怎么工作
爬蟲的工作很簡單,一句話概括就是找到目標入口然后在目標頁面獲取目標內(nèi)容。
爬蟲的原理也不復雜,主要是通過http或者其他協(xié)議,發(fā)送請求到目標接口,然后解析返回的內(nèi)容成結(jié)構化數(shù)據(jù)存儲到本地。