寫采集:網(wǎng)絡(luò)爬蟲(一)

搞采集,那第一步離不開的肯定是蜘蛛,那我們必須的科普一下,何為網(wǎng)絡(luò)蜘蛛?

網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

詳細(xì)自己搜百度百科

 

那話又說回來了,其實說網(wǎng)絡(luò)爬蟲,術(shù)語好像好像很高大上,其實不外乎寫一個http請求,然后到互聯(lián)網(wǎng)去抓取感興趣的數(shù)據(jù)。方式不外乎兩種:一種是帶有目的爬,然后抓取自己想要的數(shù)據(jù),老牛寫的蜘蛛基本上屬于這種,這種蜘蛛也比較呆直萌。而另一種就高大尚一點,基于搜索索引分類的蜘蛛,這種爬行永無終點,對于互聯(lián)網(wǎng)的一切數(shù)據(jù)都感興趣。簡直就是互聯(lián)網(wǎng)的搬運(yùn)工。不理有沒有用,先采回來再說。基于老牛的道行和讀者的接受程度,我們只能簡單的舉第一種的例子,基于目的的采集。

 

如何用C#寫一個爬蟲

爬蟲,必須得有自己的內(nèi)核,內(nèi)核是啥?一個強(qiáng)悍的http訪問組件,所幸的是微軟早已幫我們準(zhǔn)備了一個強(qiáng)悍的Net訪問組件HttpWebRequest。有朋友會說,那不是很簡單么,隨便百度一下就知道怎么去寫了,呃...

那我們就百度一下

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式

我想了解如何學(xué)習(xí)

姓名:
手機(jī):
留言:
 
<span id="pfgby"></span>