在梯度提升樹(GBDT)原理小結(jié)中,我們對(duì)GBDT的原理做了總結(jié),本文我們就從scikit-learn里GBDT的類庫使用方法作一個(gè)總結(jié),主要會(huì)關(guān)注調(diào)參中的一些要點(diǎn)。

1. scikit-learn GBDT類庫概述

    在sacikit-learn中,GradientBoostingClassifier為GBDT的分類類, 而GradientBoostingRegressor為GBDT的回歸類。兩者的參數(shù)類型完全相同,當(dāng)然有些參數(shù)比如損失函數(shù)loss的可選擇項(xiàng)并不相同。這些參數(shù)中,類似于Adaboost,我們把重要參數(shù)分為兩類,第一類是Boosting框架的重要參數(shù),第二類是弱學(xué)習(xí)器即CART回歸樹的重要參數(shù)。

    下面我們就從這兩個(gè)方面來介紹這些參數(shù)的使用。

2. GBDT類庫boosting框架參數(shù)

    首先,我們來看boosting框架相關(guān)的重要參數(shù)。由于GradientBoostingClassifier和GradientBoostingRegressor的參數(shù)絕大部分相同,我們下面會(huì)一起來講,不同點(diǎn)會(huì)單獨(dú)指出。

    1) n_estimators: 也就是弱學(xué)習(xí)器的最大迭代次數(shù),或者說最大的弱學(xué)習(xí)器的個(gè)數(shù)。一般來說n_estimators太小,容易欠擬合,n_estimators太大,又容易過擬合,一般選擇一個(gè)適中的數(shù)值。默認(rèn)是100。在實(shí)際調(diào)參的過程中,我們常常將n_estimators和下面介紹的參數(shù)learning_rate一起考慮。

    2) learning_rate: 即每個(gè)弱學(xué)習(xí)器的權(quán)重縮減系數(shù)

網(wǎng)友評(píng)論