集成學(xué)習(xí)(ensemble learning)可以說是現(xiàn)在非?;鸨臋C器學(xué)習(xí)方法了。它本身不是一個單獨的機器學(xué)習(xí)算法,而是通過構(gòu)建并結(jié)合多個機器學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。也就是我們常說的“博采眾長”。集成學(xué)習(xí)可以用于分類問題集成,回歸問題集成,特征選取集成,異常點檢測集成等等,可以說所有的機器學(xué)習(xí)領(lǐng)域都可以看到集成學(xué)習(xí)的身影。本文就對集成學(xué)習(xí)的原理做一個總結(jié)。
1. 集成學(xué)習(xí)概述
從下圖,我們可以對集成學(xué)習(xí)的思想做一個概括。對于訓(xùn)練集數(shù)據(jù),我們通過訓(xùn)練若干個個體學(xué)習(xí)器,通過一定的結(jié)合策略,就可以最終形成一個強學(xué)習(xí)器,以達到博采眾長的目的。
也就是說,集成學(xué)習(xí)有兩個主要的問題需要解決,第一是如何得到若干個個體學(xué)習(xí)器,第二是如何選擇一種結(jié)合策略,將這些個體學(xué)習(xí)器集合成一個強學(xué)習(xí)器。
2. 集成學(xué)習(xí)之個體學(xué)習(xí)器
上一節(jié)我們講到,集成學(xué)習(xí)的第一個問題就是如何得到若干個個體學(xué)習(xí)器。這里我們有兩種選擇。
第一種就是所有的個體學(xué)習(xí)器都是一個種類的,或者說是同質(zhì)的。比如都是決策樹個體學(xué)習(xí)器,或者都是神經(jīng)網(wǎng)絡(luò)個體學(xué)習(xí)器。第二種是所有的個體學(xué)習(xí)器不全是一個種類的,或者說是異質(zhì)的。比如我們有一個分類問題,對訓(xùn)練集采用支持向量機個體學(xué)習(xí)器,邏輯回歸個體學(xué)習(xí)器和樸素貝葉斯個體學(xué)習(xí)器來學(xué)習(xí),再通過某種結(jié)合策略來確定最終的分類強學(xué)習(xí)器。
目前來說,同質(zhì)個體學(xué)習(xí)器的應(yīng)用是最廣泛的,一般我們常說的集成學(xué)習(xí)的方法都是指的同質(zhì)個體學(xué)習(xí)器。而同質(zhì)個體學(xué)習(xí)器使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡(luò)。同質(zhì)個體學(xué)習(xí)器按照個體學(xué)習(xí)器之間是否存在依賴關(guān)系可以分為兩