對于想深入了解線性回歸的童鞋,這里給出一個完整的例子,詳細學完這個例子,對用scikit-learn來運行線性回歸,評估模型不會有什么問題了。
1. 獲取數(shù)據(jù),定義問題
沒有數(shù)據(jù),當然沒法研究機器學習啦。:) 這里我們用UCI大學公開的機器學習數(shù)據(jù)來跑線性回歸。
數(shù)據(jù)的介紹在這: http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant
數(shù)據(jù)的下載地址在這: http://archive.ics.uci.edu/ml/machine-learning-databases/00294/
里面是一個循環(huán)發(fā)電場的數(shù)據(jù),共有9568個樣本數(shù)據(jù),每個數(shù)據(jù)有5列,分別是:AT(溫度), V(壓力), AP(濕度), RH(壓強), PE(輸出電力)。我們不用糾結(jié)于每項具體的意思。
我們的問題是得到一個線性的關(guān)系,對應PE是樣本輸出,而AT/V/AP/RH這4個是樣本特征, 機器學習的目的就是得到一個線性回歸模型,即:
延伸閱讀
學習是年輕人改變自己的最好方式