我們先看看維基百科的定義

網(wǎng)絡(luò)爬蟲(chóng)(英語(yǔ):web crawler),也叫網(wǎng)絡(luò)蜘蛛(spider),是一種用來(lái)自動(dòng)瀏覽萬(wàn)維網(wǎng)網(wǎng)絡(luò)機(jī)器人。

通俗的說(shuō)爬蟲(chóng)就是通過(guò)一定的規(guī)則策略,自動(dòng)抓取、下載互聯(lián)網(wǎng)上網(wǎng)頁(yè),在按照某些規(guī)則算法對(duì)這些網(wǎng)頁(yè)進(jìn)行數(shù)據(jù)抽取、 索引。  像百度、谷歌、今日頭條、包括各類(lèi)新聞?wù)径际峭ㄟ^(guò)爬蟲(chóng)來(lái)抓取數(shù)據(jù)。

  平面設(shè)計(jì)培訓(xùn),網(wǎng)頁(yè)設(shè)計(jì)培訓(xùn),美工培訓(xùn),游戲開(kāi)發(fā),動(dòng)畫(huà)培訓(xùn)

題外話

博客園里偶爾看到爬蟲(chóng)的文章,其實(shí)很多都稱(chēng)不上為爬蟲(chóng)。 只能叫玩具或者叫http請(qǐng)求下載程序吧。。 嚴(yán)格來(lái)說(shuō)爬蟲(chóng)是一個(gè)系統(tǒng),它包含了爬取策略、更新策略、隊(duì)列、排重、存儲(chǔ)模塊等部分。 

 

爬蟲(chóng)的分類(lèi)

按照抓取網(wǎng)站對(duì)象來(lái)分類(lèi),可以分為2類(lèi)爬蟲(chóng)。

1. 通用爬蟲(chóng)

  類(lèi)似百度、谷歌這樣的爬蟲(chóng),抓取對(duì)象是整個(gè)互聯(lián)網(wǎng),對(duì)于網(wǎng)頁(yè)沒(méi)有固定的抽取規(guī)則。 對(duì)于所有網(wǎng)頁(yè)都是一套通用的處理方法。

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動(dòng)軟件開(kāi)發(fā)培訓(xùn),網(wǎng)站設(shè)計(jì)培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式