什么是爬蟲

百度百科的解釋:

爬蟲即網(wǎng)絡(luò)爬蟲,是一種自動獲取網(wǎng)頁內(nèi)容的程序。是搜索引擎的重要組成部分,因此搜索引擎優(yōu)化很大程度上就是針對爬蟲而做出的優(yōu)化。

通俗一點講:

把別人網(wǎng)站的信息給弄下來,弄到自己的電腦上。然后再做一些過濾,比如篩選啊,排序啊,提取圖片啊,鏈接什么的。獲取你需要的信息。

如果數(shù)據(jù)量很大,而且你的算法又比較叼,并且可以給別人檢索服務(wù)的話,那么你的爬蟲就是一個小百度或者小谷歌了

回到頂部

什么是robots協(xié)議

   了解完什么是爬蟲之后,我們再來了解一下爬蟲的協(xié)議了,也就是哪些東西才已去爬。

    Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取?!?/p>

   robots.txt文件是一個文本文件,它是