在Bagging與隨機森林算法原理小結(jié)中,我們對隨機森林(Random Forest, 以下簡稱RF)的原理做了總結(jié)。本文就從實踐的角度對RF做一個總結(jié)。重點講述scikit-learn中RF的調(diào)參注意事項,以及和GBDT調(diào)參的異同點。
1. scikit-learn隨機森林類庫概述
在scikit-learn中,RF的分類類是RandomForestClassifier,回歸類是RandomForestRegressor。當(dāng)然RF的變種Extra Trees也有, 分類類ExtraTreesClassifier,回歸類ExtraTreesRegressor。由于RF和Extra Trees的區(qū)別較小,調(diào)參方法基本相同,本文只關(guān)注于RF的調(diào)參。
和GBDT的調(diào)參類似,RF需要調(diào)參的參數(shù)也包括兩部分,第一部分是Bagging框架的參數(shù),第二部分是CART決策樹的參數(shù)。下面我們就對這些參數(shù)做一個介紹。
2. RF框架參數(shù)
首先我們關(guān)注于RF的Bagging框架的參數(shù)。這里可以和GBDT對比來學(xué)習(xí)。在scikit-learn 梯度提升樹(GBDT)調(diào)參小結(jié)中我們對GBDT的框架參數(shù)做了介紹。GBDT的框架參數(shù)比較多,重要的有最大迭代器個數(shù),步長和子采樣比例,調(diào)參起來比較費力。但是RF則比較簡單,這是因為bagging框架里的各個弱學(xué)習(xí)器之間是沒有依賴關(guān)系的,這減小的調(diào)參的難度。換句話說,達到同樣的調(diào)參效果,RF調(diào)參時間要比GBDT少一些。
下面我來看看RF重要的Bagging框架的參數(shù),由于RandomForestClassifier和RandomForestRegressor參數(shù)絕大部分相同,這里會將它們一起講,不同點會指出。
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26