在梯度提升樹(shù)(GBDT)原理小結(jié)中,我們對(duì)GBDT的原理做了總結(jié),本文我們就從scikit-learn里GBDT的類庫(kù)使用方法作一個(gè)總結(jié),主要會(huì)關(guān)注調(diào)參中的一些要點(diǎn)。
1. scikit-learn GBDT類庫(kù)概述
在sacikit-learn中,GradientBoostingClassifier為GBDT的分類類, 而GradientBoostingRegressor為GBDT的回歸類。兩者的參數(shù)類型完全相同,當(dāng)然有些參數(shù)比如損失函數(shù)loss的可選擇項(xiàng)并不相同。這些參數(shù)中,類似于Adaboost,我們把重要參數(shù)分為兩類,第一類是Boosting框架的重要參數(shù),第二類是弱學(xué)習(xí)器即CART回歸樹(shù)的重要參數(shù)。
下面我們就從這兩個(gè)方面來(lái)介紹這些參數(shù)的使用。
2. GBDT類庫(kù)boosting框架參數(shù)
首先,我們來(lái)看boosting框架相關(guān)的重要參數(shù)。由于GradientBoostingClassifier和GradientBoostingRegressor的參數(shù)絕大部分相同,我們下面會(huì)一起來(lái)講,不同點(diǎn)會(huì)單獨(dú)指出。
1) n_estimators: 也就是弱學(xué)習(xí)器的最大迭代次數(shù),或者說(shuō)最大的弱學(xué)習(xí)器的個(gè)數(shù)。一般來(lái)說(shuō)n_estimators太小,容易欠擬合,n_estimators太大,又容易過(guò)擬合,一般選擇一個(gè)適中的數(shù)值。默認(rèn)是100。在實(shí)際調(diào)參的過(guò)程中,我們常常將n_estimators和下面介紹的參數(shù)learning_rate一起考慮。
2) learning_rate: 即每個(gè)弱學(xué)習(xí)器的權(quán)重縮減系數(shù)
延伸閱讀
學(xué)習(xí)是年輕人改變自己的最好方式