快一年沒更新博客了,現(xiàn)在總結(jié)一下這大半年來研究、學(xué)習(xí)的知識。
這個爬蟲項目是去年4、5月份做的,主要技術(shù)是BeautifulSoup、select、requests、MongoDB、highchart
首先,我們登陸趕集網(wǎng)可以看到二手商品信息的首頁,即爬蟲的起始url是:http://sh.ganji.com/wu/,分析網(wǎng)頁結(jié)構(gòu)可以看到二手商品信息分類中有:手機、手機配件、手機號碼、筆記本電腦、臺式機等20多個商品分類子頻道,分別打開每個子頻道的url,可以看到對應(yīng)的二手商品列表,每個二手商品列表中的url對應(yīng)一個詳細頁面,我們要獲取的就是每個詳細頁面上的信息。
首先,我們定義 headers 部分,headers 包含 User-Agent、Cookie、Referer等信息,這是為了偽裝成瀏覽器的形式,以應(yīng)對反爬蟲措施。
requests.get解析url:
wb_data = requests.get(url, headers=headers)
BeautifulSoup的lxml解析文本:
soup = BeautifulSoup(wb_data.text, 'lxml')