分類導(dǎo)航

開篇！我也來談?wù)勁老x

發(fā)布時(shí)間：2017年06月19日作者： IT網(wǎng)絡(luò)文摘 (該文來自筆記，點(diǎn)擊查看原文)

我們先看看維基百科的定義

網(wǎng)絡(luò)爬蟲（英語：web crawler），也叫網(wǎng)絡(luò)蜘蛛（spider），是一種用來自動(dòng)瀏覽萬維網(wǎng)的網(wǎng)絡(luò)機(jī)器人。

通俗的說爬蟲就是通過一定的規(guī)則策略，自動(dòng)抓取、下載互聯(lián)網(wǎng)上網(wǎng)頁，在按照某些規(guī)則算法對(duì)這些網(wǎng)頁進(jìn)行數(shù)據(jù)抽取、索引。像百度、谷歌、今日頭條、包括各類新聞?wù)径际峭ㄟ^爬蟲來抓取數(shù)據(jù)。

　　平面設(shè)計(jì)培訓(xùn),網(wǎng)頁設(shè)計(jì)培訓(xùn),美工培訓(xùn),游戲開發(fā),動(dòng)畫培訓(xùn)

題外話

博客園里偶爾看到爬蟲的文章，其實(shí)很多都稱不上為爬蟲。只能叫玩具或者叫http請(qǐng)求下載程序吧。。嚴(yán)格來說爬蟲是一個(gè)系統(tǒng)，它包含了爬取策略、更新策略、隊(duì)列、排重、存儲(chǔ)模塊等部分。

爬蟲的分類

按照抓取網(wǎng)站對(duì)象來分類，可以分為2類爬蟲。

1. 通用爬蟲

　　類似百度、谷歌這樣的爬蟲，抓取對(duì)象是整個(gè)互聯(lián)網(wǎng)，對(duì)于網(wǎng)頁沒有固定的抽取規(guī)則。對(duì)于所有網(wǎng)頁都是一套通用的處理方法。

分類導(dǎo)航

開篇！我也來談?wù)勁老x

爬蟲的分類

1. 通用爬蟲

延伸閱讀

我想了解如何學(xué)習(xí)

分類導(dǎo)航

開篇！我也來談?wù)勁老x

爬蟲的分類

1. 通用爬蟲

延伸閱讀

我想了解如何學(xué)習(xí)

開篇！我也來談?wù)勁老x