老蝸牛寫(xiě)采集：網(wǎng)絡(luò)爬蟲(chóng)（一）

發(fā)布時(shí)間：2016年11月02日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

寫(xiě)采集：網(wǎng)絡(luò)爬蟲(chóng)（一）

搞采集，那第一步離不開(kāi)的肯定是蜘蛛，那我們必須的科普一下，何為網(wǎng)絡(luò)蜘蛛？

網(wǎng)絡(luò)爬蟲(chóng)

網(wǎng)絡(luò)爬蟲(chóng)（又被稱(chēng)為網(wǎng)頁(yè)蜘蛛，網(wǎng)絡(luò)機(jī)器人，在FOAF社區(qū)中間，更經(jīng)常的稱(chēng)為網(wǎng)頁(yè)追逐者），是一種按照一定的規(guī)則，自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲(chóng)。

詳細(xì)自己搜百度百科

那話(huà)又說(shuō)回來(lái)了，其實(shí)說(shuō)網(wǎng)絡(luò)爬蟲(chóng)，術(shù)語(yǔ)好像好像很高大上，其實(shí)不外乎寫(xiě)一個(gè)http請(qǐng)求，然后到互聯(lián)網(wǎng)去抓取感興趣的數(shù)據(jù)。方式不外乎兩種：一種是帶有目的爬，然后抓取自己想要的數(shù)據(jù)，老牛寫(xiě)的蜘蛛基本上屬于這種，這種蜘蛛也比較呆直萌。而另一種就高大尚一點(diǎn)，基于搜索索引分類(lèi)的蜘蛛，這種爬行永無(wú)終點(diǎn)，對(duì)于互聯(lián)網(wǎng)的一切數(shù)據(jù)都感興趣。簡(jiǎn)直就是互聯(lián)網(wǎng)的搬運(yùn)工。不理有沒(méi)有用，先采回來(lái)再說(shuō)?；诶吓５牡佬泻妥x者的接受程度，我們只能簡(jiǎn)單的舉第一種的例子，基于目的的采集。

如何用C#寫(xiě)一個(gè)爬蟲(chóng)

爬蟲(chóng)，必須得有自己的內(nèi)核，內(nèi)核是啥？一個(gè)強(qiáng)悍的http訪問(wèn)組件，所幸的是微軟早已幫我們準(zhǔn)備了一個(gè)強(qiáng)悍的Net訪問(wèn)組件HttpWebRequest。有朋友會(huì)說(shuō)，那不是很簡(jiǎn)單么，隨便百度一下就知道怎么去寫(xiě)了，呃...

那我們就百度一下

分類(lèi)導(dǎo)航

老蝸牛寫(xiě)采集：網(wǎng)絡(luò)爬蟲(chóng)（一）

寫(xiě)采集：網(wǎng)絡(luò)爬蟲(chóng)（一）

網(wǎng)絡(luò)爬蟲(chóng)

如何用C#寫(xiě)一個(gè)爬蟲(chóng)

網(wǎng)友評(píng)論

更多精彩分享