Python數(shù)據(jù)分析之路（一）查詢和統(tǒng)計

發(fā)布時間：2017年07月10日作者： IT網(wǎng)絡(luò)文摘 (該文來自筆記，點(diǎn)擊查看原文)

0. 如何入門數(shù)據(jù)分析

關(guān)注沙漠之鷹的同學(xué)一定看過沙漠君寫得很多篇數(shù)據(jù)分析文章，比如分析房價，車價，預(yù)測機(jī)動車搖號這些話題。其實文章中所有的分析都使用了Python和它非常強(qiáng)大的數(shù)據(jù)分析庫Pandas。一些機(jī)器學(xué)習(xí)和預(yù)測的功能則用到了sklearn庫。掌握了這些工具，就能應(yīng)對絕大多數(shù)的分析需求。

紙上得來終覺淺，即使你看了很多書和代碼，也未必比得上多接觸例子多敲一些代碼，三四個中等規(guī)模（約一兩百行代碼的）的案例就能讓你有整體的把握。至于數(shù)據(jù)采集，沙漠之鷹有開源的數(shù)據(jù)抓取工具Hawk，網(wǎng)上也有眾多如何獲取數(shù)據(jù)的教程，因此本文不再詳述。

系列文章分為三個部分：

1) 查詢與統(tǒng)計
2) 可視化和高級用法
3) 分類和預(yù)測（估計會分為幾篇文章）

好了，廢話不多說，進(jìn)入正題。

1. 找到好的問題

好的問題其實比答案更重要。人認(rèn)識問題，分為四種級別：

我們知道自己知道的（房價在漲）
知道自己不知道的（可度量的信息，如房價平均漲幅）
不知道自己知道的（如證明搖號系統(tǒng)漏洞）
不知道自己不知道的（最有價值，蘊(yùn)含著最大的機(jī)會）

沙漠君期待于尋找3-4層級的問題，可是多數(shù)情況只能在第1和第2檔上徘徊。當(dāng)你發(fā)現(xiàn)一個問題之后，還需要思考3個問題：

我是否找到了一個值得解決的問題？
我是否提出了一個足夠好的解決方案
我真的想去解決這個問題嗎？

最后的動機(jī)往往反映了你能解決該問題的最大極限，很多人也許僅僅是完成任務(wù)，因此有了一點(diǎn)成果便停滯不前，錯過了最大的金礦。數(shù)據(jù)的質(zhì)量比數(shù)量更重要，如果不知道什么樣的數(shù)據(jù)更重要，即使擁有更多的數(shù)據(jù)也只會造成嘔吐。數(shù)據(jù)分析需要專注，需要從紛繁的圖表和信息中找到問題核心。

通常來說，人們對變化的指標(biāo)更感興趣，因此比率和增長幅度比靜態(tài)的數(shù)據(jù)更有說服力。而變化又分長短期，不同維度得出的結(jié)論往往全然不同。相關(guān)性很好，因果性更佳。有了因果性，便有了改變未來的能力。

下圖展示了數(shù)據(jù)分析的一般流程（圖片來自網(wǎng)絡(luò)）：

seo優(yōu)化培訓(xùn),網(wǎng)絡(luò)推廣培訓(xùn),網(wǎng)絡(luò)營銷培訓(xùn),SEM培訓(xùn),網(wǎng)絡(luò)優(yōu)化,在線營銷培訓(xùn)

統(tǒng)計的三大核心：分組(map)，聚合(reduce)，排序(sort)。它們用的是如此普遍，因此MapReduce管道框架成了數(shù)據(jù)分析的標(biāo)準(zhǔn)，也非常適合做多機(jī)并行化。分組和排序很好理解，聚合指的是對各組內(nèi)容做求和，分組等。

絕大部分?jǐn)?shù)據(jù)分析操作，都可以通過查詢，分組，聚合，排序四個元素進(jìn)行級聯(lián)組合進(jìn)行。因此掌握這四大天王，應(yīng)付一般的場景就都無問題了。 (這應(yīng)該是這篇文章最重要的一句話了)

2. 查詢和過濾

DataFrame是pandas的核心數(shù)據(jù)結(jié)構(gòu)，可以理解為Excel里的二維矩陣，它更高級，能表達(dá)3維或更高維的數(shù)據(jù)，支持多索引。在內(nèi)存中存取，效率極高，絕

分類導(dǎo)航

Python數(shù)據(jù)分析之路（一）查詢和統(tǒng)計

0. 如何入門數(shù)據(jù)分析

1. 找到好的問題

2. 查詢和過濾

延伸閱讀

我想了解如何學(xué)習(xí)