前言
前端時間再回顧了一下node.js,于是順勢做了一個爬蟲來加深自己對node的理解。
主要用的到是request,cheerio,async三個模塊
request
用于請求地址和快速下載圖片流。
https://github.com/request/request
cheerio
為服務(wù)器特別定制的,快速、靈活、實施的jQuery核心實現(xiàn).
便于解析html代碼。
https://www.npmjs.com/package/cheerio
async
異步調(diào)用,防止堵塞。
http://caolan.github.io/async/
核心思路
用request 發(fā)送一個請求。獲取html代碼,取得其中的img標(biāo)簽和a標(biāo)簽。
通過獲取的a表情進(jìn)行遞歸調(diào)用。不斷獲取img地址和a地址,繼續(xù)遞歸
獲取img地址通過request(photo).pipe(fs.createWriteStream(dir + “/” + filename));進(jìn)行快速下載。
網(wǎng)友評論 |