分類導航

簡單高效的nodejs爬蟲模型

發(fā)布時間：2016年11月28日作者：文章轉自網絡，版權歸原作者所有，反饋可立刻刪除 (該文來自筆記，點擊查看原文)

這篇文章講解一下yunshare項目的爬蟲模型。

使用nodejs開發(fā)爬蟲很簡單，不需要類似python的scrapy這樣的爬蟲框架，只需要用request或者superagent這樣的http庫就能完成大部分的爬蟲工作了。

使用nodejs開發(fā)爬蟲半年左右了，爬蟲可以很簡單，也可以很復雜。簡單的爬蟲定向爬取一個網站，可能有個幾萬或者幾十萬的頁面請求，復雜的爬蟲類似google bot這樣搜索引擎的蜘蛛爬蟲，要每時每刻爬取互聯(lián)網上最新的內容。

一般的個人開發(fā)者都是用爬蟲定向爬取一些網站，然后提取一些結構化的數據，使用api接口獲取數據也可以歸到這一類。如果想簡單的練習爬蟲技術，可以嘗試爬取豆瓣電影數據和書籍數據的，使用api接口和爬取html頁面都能完成這個任務。

爬蟲的說白了就是一個http客戶端，通過http協(xié)議和遠程http服務器通信，獲取html頁面內容或者其他的種子文件，pdf文件等等。和瀏覽器不同的一點就是爬蟲不會把抓取的內容渲染出來，而是解析頁面內容然后保存到數據庫里面。

在開始學習爬蟲的時候我考慮的是怎么爬取html頁面內容，怎么解析html頁面之間的鏈接規(guī)則，后來遇到了頁面編碼的問題。

統(tǒng)一utf8編碼

國內網站主要是使用html和gbk這兩種編碼方式，解決編碼有兩種思路，第一個是在獲取頁面內容的時候根據頁面的<meta charset='gbk'>編碼把內容統(tǒng)一轉碼成utf8的，因為nodejs字符串默認編碼就是utf8。

這個方案充滿了不確定性。

問題1：不同網站的指定編碼的方式不一樣，除了前面提到的那種方式，還有<meta http-equiv="Content-Type" content="text/html; charset=gbk">這種方式指定編碼，這個問題還不是很大，很多的http工具庫都能正確的解析這兩種編碼，問題是還有很多網站沒有指定編碼，又或者指定的編碼和文件的實際編碼不一致（遇到過真實的案例）。

問題2：如果你把gbk編碼的html文件轉成utf8編碼保存到本地，用瀏覽器直接打開這個文件的時候會顯示亂碼，非常不利于開發(fā)過程中的查找問題。

不轉碼html內容

我想了解如何學習

分類導航

簡單高效的nodejs爬蟲模型

統(tǒng)一utf8編碼

不轉碼html內容

延伸閱讀

我想了解如何學習