分類(lèi)導(dǎo)航

Scrapy框架爬蟲(chóng)初探——中關(guān)村在線手機(jī)參數(shù)數(shù)據(jù)爬取

發(fā)布時(shí)間：2017年01月10日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來(lái)自筆記，點(diǎn)擊查看原文)

關(guān)于Scrapy如何安裝部署的文章已經(jīng)相當(dāng)多了，但是網(wǎng)上實(shí)戰(zhàn)的例子還不是很多，近來(lái)正好在學(xué)習(xí)該爬蟲(chóng)框架，就簡(jiǎn)單寫(xiě)了個(gè)Spider Demo來(lái)實(shí)踐。
作為硬件數(shù)碼控，我選擇了經(jīng)常光顧的中關(guān)村在線的手機(jī)頁(yè)面進(jìn)行爬取，大體思路如下圖所示。

平面設(shè)計(jì)培訓(xùn),網(wǎng)頁(yè)設(shè)計(jì)培訓(xùn),美工培訓(xùn),游戲開(kāi)發(fā),動(dòng)畫(huà)培訓(xùn)

 1 # coding:utf-8 2 import scrapy 3 import re 4 import os 5 import sqlite3 6 from myspider.items import SpiderItem 7  8  9 class ZolSpider(scrapy.Spider):10     name = "zol"11     # allowed_domains = ["http://detail.zol.com.cn/"]  # 用于限定爬取的服務(wù)器域名12     start_urls = [13         # 主要爬去中關(guān)村在線的手機(jī)信息頁(yè)面，考慮到是演示目的就僅僅爬了首頁(yè)，其實(shí)爬分頁(yè)跟二級(jí)爬蟲(chóng)原理相同，出于節(jié)省時(shí)間目的這里就不爬了14         # 這里可以寫(xiě)多個(gè)入口URL15         "http://detail.zol.com.cn/cell_phone_index/subcate57_list_1.html"16     ]17     item = SpiderItem()  # 沒(méi)法動(dòng)態(tài)創(chuàng)建，索性沒(méi)用上，用的meta在spider函數(shù)間傳值18     # 只是test一下就用sqlite吧，比較輕量化19     #database = sqlite3.connect(":memory:")20     database_file = os.path.dirname
        
        	
        		延伸閱讀
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖
        			2017-07-26
        			
        			
        			
        			消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】
        			2017-07-26
        			
        			
        			
        			詞向量-LRWE模型-更好地識(shí)別反義詞同義詞
        			2017-07-26
        			
        			
        			
        			從棧不平衡問(wèn)題 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解
        			2017-07-26
        			
        			
        			
        			阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析
        			2017-07-26
        			
        			
        			
        			集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		學(xué)習(xí)是年輕人改變自己的最好方式

分類(lèi)導(dǎo)航

Scrapy框架爬蟲(chóng)初探——中關(guān)村在線手機(jī)參數(shù)數(shù)據(jù)爬取

延伸閱讀

我想了解如何學(xué)習(xí)