聲明:本文是站在回歸分析角度講的,分類的理解可能跟這有點(diǎn)不一樣。
1.前言
隨機(jī)森林也是集成方法的一種,是對Bagging算法的改進(jìn)。
隨機(jī)森林主要有兩步組成:
1)有放回的隨機(jī)抽取樣本數(shù)據(jù),形成新的樣本集。這部分和Bagging算法一樣,但是有兩點(diǎn)需要注意:
a)新的樣本集的大小和原始樣本集的大小是一樣的。假如原始樣本有1000個(gè)數(shù)據(jù),那么新樣本集也要包括1000個(gè)數(shù)據(jù),只是新樣本集里面會(huì)含有部分重復(fù)的數(shù)據(jù),這樣可以避免過度擬合的問題。
b)每生成一個(gè)決策樹,都需要重新對原始數(shù)據(jù)進(jìn)行取樣。假如進(jìn)行k次訓(xùn)練(即生成k課樹),那么就需要重復(fù)k次這個(gè)動(dòng)作
2)無放回的隨機(jī)抽取屬性列。假如有12個(gè)屬性(即12列),從這12個(gè)屬性列中隨機(jī)抽取無重復(fù)的n列(一般建議是總屬性的1/3)進(jìn)行運(yùn)算。每次訓(xùn)練都需要重新抽取