在梯度提升樹(shù)(GBDT)原理小結(jié)中,我們對(duì)GBDT的原理做了總結(jié),本文我們就從scikit-learn里GBDT的類庫(kù)使用方法作一個(gè)總結(jié),主要會(huì)關(guān)注調(diào)參中的一些要點(diǎn)。

1. scikit-learn GBDT類庫(kù)概述

    在sacikit-learn中,GradientBoostingClassifier為GBDT的分類類, 而GradientBoostingRegressor為GBDT的回歸類。兩者的參數(shù)類型完全相同,當(dāng)然有些參數(shù)比如損失函數(shù)loss的可選擇項(xiàng)并不相同。這些參數(shù)中,類似于Adaboost,我們把重要參數(shù)分為兩類,第一類是Boosting框架的重要參數(shù),第二類是弱學(xué)習(xí)器即CART回歸樹(shù)的重要參數(shù)。

    下面我們就從這兩個(gè)方面來(lái)介紹這些參數(shù)的使用。

2. GBDT類庫(kù)boosting框架參數(shù)

    首先,我們來(lái)看boosting框架相關(guān)的重要參數(shù)。由于GradientBoostingClassifier和GradientBoostingRegressor的參數(shù)絕大部分相同,我們下面會(huì)一起來(lái)講,不同點(diǎn)會(huì)單獨(dú)指出。

    1) n_estimators: 也就是弱學(xué)習(xí)器的最大迭代次數(shù),或者說(shuō)最大的弱學(xué)習(xí)器的個(gè)數(shù)。一般來(lái)說(shuō)n_estimators太小,容易欠擬合,n_estimators太大,又容易過(guò)擬合,一般選擇一個(gè)適中的數(shù)值。默認(rèn)是100。在實(shí)際調(diào)參的過(guò)程中,我們常常將n_estimators和下面介紹的參數(shù)learning_rate一起考慮。

    2) learning_rate: 即每個(gè)弱學(xué)習(xí)器的權(quán)重縮減系數(shù)

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動(dòng)軟件開(kāi)發(fā)培訓(xùn),網(wǎng)站設(shè)計(jì)培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式