1.前言      

       前面提到的算法都是通過一個函數(shù)來擬合數(shù)據(jù)解決問題,也就是單個機器學習算法,與其相對的還有多個機器學習算法,即:集成方法。

       集成方法來源:如果模型之間近似相互獨立,則多個模型聯(lián)合的性能要優(yōu)于單個模型。大致上可以分成兩類:(一)把幾種不同的機器學習算法集合到一起(二)把一種算法的不同參數(shù)組合起來。

       集成方法由兩層算法組成。底層的算法叫基學習器或者弱學習器,是單個機器學習算法,然后這些算法被集成到高層的一個方法中。

       梯度提升算法(Gradient Boosting)屬于把一種算法的不同參數(shù)組合起來的方式。

2.關于梯度提升算法

        梯度提升算法是由Bagging算法改進而來。

        Bagging算法的基本原理:從數(shù)據(jù)集中有放回的隨機取樣,每次抽取一定比例的數(shù)據(jù)作為訓練樣本,剩下的數(shù)據(jù)作為測試樣本。重復以上動作n次,然后對每次動作訓練一個基學習器,然后把這些學習器組合到一起,成為集合算法。由于n的不確定性,所以并不是所有的基學習器都會參與到最后的集合算法中去,后面會介紹如何進行篩選。

網(wǎng)友評論