上一篇博客我們看了一個(gè)決策樹分類的例子,但是我們沒有深入決策樹分類的內(nèi)部原理。
這節(jié)我們討論的決策樹分類的所有特征的特征值都是離散的,明白了離散特征值如何分類的原理,連續(xù)值的也不難理解。
決策樹分類的核心在于確定那一個(gè)特征的那一個(gè)特征值分類最有效,可能不同的場(chǎng)景,每個(gè)人采用的衡量方法也不一樣,這里我們采用香農(nóng)熵。
下面我們看一下簡(jiǎn)單的例子
五個(gè)樣例,兩個(gè)特征(是否浮上水面,是否有鰭),判斷該動(dòng)物是否是水生(類別)
def createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] labels = ['no surfacing','flippers'] return dataSet, labels
延伸閱讀
學(xué)習(xí)是年輕人改變自己的最好方式