生活中遇到了問(wèn)題,想去成都買個(gè)房,那哪個(gè)區(qū)域性價(jià)比高肯定要考慮一番了,最粗暴直接的就是看租售比,遂打算去鏈家網(wǎng)爬上各個(gè)小區(qū)的賣房單價(jià)和租房單價(jià)比上一比,python寫爬蟲無(wú)疑是最流行的了,但最近在研究node,感覺(jué)寫個(gè)爬蟲強(qiáng)化一下node姿勢(shì)水平還是挺不錯(cuò)的。開整。
首先http請(qǐng)求工具和dom解析工具是必不可少的,嚴(yán)謹(jǐn)?shù)恼f(shuō)是對(duì)于像我這樣的菜鳥是必不可少的,http請(qǐng)求工具我選了 request,主流的還有 superagent 可選,dom解析 cheerio 應(yīng)該是不二選擇了,接口和 jquery 一樣一樣的。如果沒(méi)接觸過(guò)請(qǐng)先自行了解這兩個(gè)庫(kù)。
基本環(huán)境先搭建好,這個(gè)不在討論范圍,
github:https://github.com/huanqingli/node-web-spider
1. 第一步我們先看抓一個(gè)網(wǎng)頁(yè)是啥樣的: