分類導(dǎo)航

趕集網(wǎng)二手商品信息爬取

發(fā)布時(shí)間：2017年02月04日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來(lái)自筆記，點(diǎn)擊查看原文)

快一年沒(méi)更新博客了，現(xiàn)在總結(jié)一下這大半年來(lái)研究、學(xué)習(xí)的知識(shí)。

這個(gè)爬蟲(chóng)項(xiàng)目是去年4、5月份做的，主要技術(shù)是BeautifulSoup、select、requests、MongoDB、highchart

首先，我們登陸趕集網(wǎng)可以看到二手商品信息的首頁(yè)，即爬蟲(chóng)的起始url是：http://sh.ganji.com/wu/，分析網(wǎng)頁(yè)結(jié)構(gòu)可以看到二手商品信息分類中有：手機(jī)、手機(jī)配件、手機(jī)號(hào)碼、筆記本電腦、臺(tái)式機(jī)等20多個(gè)商品分類子頻道，分別打開(kāi)每個(gè)子頻道的url，可以看到對(duì)應(yīng)的二手商品列表，每個(gè)二手商品列表中的url對(duì)應(yīng)一個(gè)詳細(xì)頁(yè)面，我們要獲取的就是每個(gè)詳細(xì)頁(yè)面上的信息。

首先，我們定義 headers 部分，headers 包含 User-Agent、Cookie、Referer等信息，這是為了偽裝成瀏覽器的形式，以應(yīng)對(duì)反爬蟲(chóng)措施。

requests.get解析url：

wb_data = requests.get(url, headers=headers)

BeautifulSoup的lxml解析文本：

soup = BeautifulSoup(wb_data.text, 'lxml')

我想了解如何學(xué)習(xí)

分類導(dǎo)航

趕集網(wǎng)二手商品信息爬取

延伸閱讀

我想了解如何學(xué)習(xí)