快一年沒(méi)更新博客了,現(xiàn)在總結(jié)一下這大半年來(lái)研究、學(xué)習(xí)的知識(shí)。
這個(gè)爬蟲(chóng)項(xiàng)目是去年4、5月份做的,主要技術(shù)是BeautifulSoup、select、requests、MongoDB、highchart
首先,我們登陸趕集網(wǎng)可以看到二手商品信息的首頁(yè),即爬蟲(chóng)的起始url是:http://sh.ganji.com/wu/,分析網(wǎng)頁(yè)結(jié)構(gòu)可以看到二手商品信息分類中有:手機(jī)、手機(jī)配件、手機(jī)號(hào)碼、筆記本電腦、臺(tái)式機(jī)等20多個(gè)商品分類子頻道,分別打開(kāi)每個(gè)子頻道的url,可以看到對(duì)應(yīng)的二手商品列表,每個(gè)二手商品列表中的url對(duì)應(yīng)一個(gè)詳細(xì)頁(yè)面,我們要獲取的就是每個(gè)詳細(xì)頁(yè)面上的信息。
首先,我們定義 headers 部分,headers 包含 User-Agent、Cookie、Referer等信息,這是為了偽裝成瀏覽器的形式,以應(yīng)對(duì)反爬蟲(chóng)措施。
requests.get解析url:
wb_data = requests.get(url, headers=headers)
BeautifulSoup的lxml解析文本:
soup = BeautifulSoup(wb_data.text, 'lxml')
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問(wèn)題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二) 2017-07-26