在集成學習原理小結(jié)中,我們講到了集成學習有兩個流派,一個是boosting派系,它的特點是各個弱學習器之間有依賴關(guān)系。另一種是bagging流派,它的特點是各個弱學習器之間沒有依賴關(guān)系,可以并行擬合。本文就對集成學習中Bagging與隨機森林算法做一個總結(jié)。
隨機森林是集成學習中可以和梯度提升樹GBDT分庭抗禮的算法,尤其是它可以很方便的并行訓練,在如今大數(shù)據(jù)大樣本的的時代很有誘惑力。
1. bagging的原理
在集成學習原理小結(jié)中,我們給Bagging畫了下面一張原理圖。
從上圖可以看出,Bagging的弱學習器之間的確沒有boosting那樣的聯(lián)系。它的特點在“隨機采樣”。那么什么是隨機采樣?
隨機采樣(bootsrap)就是從我們的訓練集里面采集固定個數(shù)的樣本,但是每采集一個樣本后,都將樣本放回。也就是說,之前采集到的樣本在放回后有可能繼續(xù)被采集到。對于我們的Bagging算法,一般會隨機采集和訓練集樣本數(shù)m一樣個數(shù)的樣本。這樣得到的采樣集和訓練集樣本的個數(shù)相同,但是樣本內(nèi)容不同。如果我們對有m個樣本訓練集做T次的隨機采樣,,則由于隨機性,T個采樣集各不相同。
注意到這和GBDT的子采樣是不同的。GBDT的子采樣是無放回采樣,而Bagging的子采樣是放回采樣。
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26