前言
前端時(shí)間再回顧了一下node.js,于是順勢(shì)做了一個(gè)爬蟲來(lái)加深自己對(duì)node的理解。
主要用的到是request,cheerio,async三個(gè)模塊
request
用于請(qǐng)求地址和快速下載圖片流。
https://github.com/request/request
cheerio
為服務(wù)器特別定制的,快速、靈活、實(shí)施的jQuery核心實(shí)現(xiàn).
便于解析html代碼。
https://www.npmjs.com/package/cheerio
async
異步調(diào)用,防止堵塞。
http://caolan.github.io/async/
核心思路
用request 發(fā)送一個(gè)請(qǐng)求。獲取html代碼,取得其中的img標(biāo)簽和a標(biāo)簽。
通過(guò)獲取的a表情進(jìn)行遞歸調(diào)用。不斷獲取img地址和a地址,繼續(xù)遞歸
獲取img地址通過(guò)request(photo).pipe(fs.createWriteStream(dir + “/” + filename));進(jìn)行快速下載。
網(wǎng)友評(píng)論 |