前言
前端時間再回顧了一下node.js,于是順勢做了一個爬蟲來加深自己對node的理解。
主要用的到是request,cheerio,async三個模塊
request
用于請求地址和快速下載圖片流。
https://github.com/request/request
cheerio
為服務器特別定制的,快速、靈活、實施的jQuery核心實現(xiàn).
便于解析html代碼。
https://www.npmjs.com/package/cheerio
async
異步調用,防止堵塞。
http://caolan.github.io/async/
核心思路
用request 發(fā)送一個請求。獲取html代碼,取得其中的img標簽和a標簽。
通過獲取的a表情進行遞歸調用。不斷獲取img地址和a地址,繼續(xù)遞歸
獲取img地址通過request(photo).pipe(fs.createWriteStream(dir + “/” + filename));進行快速下載。
延伸閱讀
我想了解如何學習 |