Python項(xiàng)目實(shí)戰(zhàn)：福布斯系列之?dāng)?shù)據(jù)采集

發(fā)布時(shí)間：2017年07月24日作者：IT網(wǎng)絡(luò)文摘

1 數(shù)據(jù)采集概述

開(kāi)始一個(gè)數(shù)據(jù)分析項(xiàng)目，首先需要做的就是get到原始數(shù)據(jù)，獲得原始數(shù)據(jù)的方法有多種途徑。比如：

獲取數(shù)據(jù)集（dataset）文件
使用爬蟲(chóng)采集數(shù)據(jù)
直接獲得excel、csv及其他數(shù)據(jù)文件
其他途徑…

本次福布斯系列數(shù)據(jù)分析項(xiàng)目實(shí)戰(zhàn)，數(shù)據(jù)采集方面，主要數(shù)據(jù)來(lái)源于使用爬蟲(chóng)進(jìn)行數(shù)據(jù)采集，同時(shí)也輔助其他數(shù)據(jù)進(jìn)行對(duì)比。

本文主要是介紹使用爬蟲(chóng)進(jìn)行數(shù)據(jù)采集的思路和步驟。

本次采集的福布斯全球上市企業(yè)2000強(qiáng)排行榜數(shù)據(jù)，涉及年份從2007年到2017年，跨越10多年。

本次采集的目標(biāo)網(wǎng)站，是多個(gè)網(wǎng)頁(yè)，但多個(gè)網(wǎng)頁(yè)的分布結(jié)構(gòu)都有所不同，雖然思路和步驟都差不多，但需要分開(kāi)來(lái)編寫(xiě)，分別采集。

2 數(shù)據(jù)采集步驟

數(shù)據(jù)采集大體分為幾步：

目標(biāo)主網(wǎng)頁(yè)內(nèi)容的Download
主網(wǎng)頁(yè)上數(shù)據(jù)的采集
主網(wǎng)頁(yè)上其他分發(fā)頁(yè)面網(wǎng)站鏈接的采集
各分發(fā)網(wǎng)頁(yè)數(shù)據(jù)的download與采集
將采集的數(shù)據(jù)保存

涉及到的python庫(kù)包括，requests、BeautifulSoup以及csv。下面以采集某年的數(shù)據(jù)為案例，來(lái)描述下數(shù)據(jù)采集的步驟。

import requestsfrom bs4 import BeautifulSoupimport csv

2.1 數(shù)據(jù)Download模塊

主要是基于 requests，代碼如下：

def download(url):
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59
        
		
        		網(wǎng)友評(píng)論
     		
				
			
			
			
		
		
		
    	
    	
        	
        		更多精彩分享
        		
        			
        		
        			
	        		
	        		學(xué)習(xí)是年輕人改變自己的最好方式

分類導(dǎo)航

Python項(xiàng)目實(shí)戰(zhàn)：福布斯系列之?dāng)?shù)據(jù)采集

1 數(shù)據(jù)采集概述

2 數(shù)據(jù)采集步驟

2.1 數(shù)據(jù)Download模塊

網(wǎng)友評(píng)論

更多精彩分享