集成學(xué)習(xí)(ensemble learning)可以說是現(xiàn)在非?;鸨臋C(jī)器學(xué)習(xí)方法了。它本身不是一個(gè)單獨(dú)的機(jī)器學(xué)習(xí)算法,而是通過構(gòu)建并結(jié)合多個(gè)機(jī)器學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。也就是我們常說的“博采眾長(zhǎng)”。集成學(xué)習(xí)可以用于分類問題集成,回歸問題集成,特征選取集成,異常點(diǎn)檢測(cè)集成等等,可以說所有的機(jī)器學(xué)習(xí)領(lǐng)域都可以看到集成學(xué)習(xí)的身影。本文就對(duì)集成學(xué)習(xí)的原理做一個(gè)總結(jié)。
1. 集成學(xué)習(xí)概述
從下圖,我們可以對(duì)集成學(xué)習(xí)的思想做一個(gè)概括。對(duì)于訓(xùn)練集數(shù)據(jù),我們通過訓(xùn)練若干個(gè)個(gè)體學(xué)習(xí)器,通過一定的結(jié)合策略,就可以最終形成一個(gè)強(qiáng)學(xué)習(xí)器,以達(dá)到博采眾長(zhǎng)的目的。
也就是說,集成學(xué)習(xí)有兩個(gè)主要的問題需要解決,第一是如何得到若干個(gè)個(gè)體學(xué)習(xí)器,第二是如何選擇一種結(jié)合策略,將這些個(gè)體學(xué)習(xí)器集合成一個(gè)強(qiáng)學(xué)習(xí)器。
2. 集成學(xué)習(xí)之個(gè)體學(xué)習(xí)器
上一節(jié)我們講到,集成學(xué)習(xí)的第一個(gè)問題就是如何得到若干個(gè)個(gè)體學(xué)習(xí)器。這里我們有兩種選擇。
第一種就是所有的個(gè)體學(xué)習(xí)器都是一個(gè)種類的,或者說是同質(zhì)的。比如都是決策樹個(gè)體學(xué)習(xí)器,或者都是神經(jīng)網(wǎng)絡(luò)個(gè)體學(xué)習(xí)器。第二種是所有的個(gè)體學(xué)習(xí)器不全是一個(gè)種類的,或者說是異質(zhì)的。比如我們有一個(gè)分類問題,對(duì)訓(xùn)練集采用支持向量機(jī)個(gè)體學(xué)習(xí)器,邏輯回歸個(gè)體學(xué)習(xí)器和樸素貝葉斯個(gè)體學(xué)習(xí)器來學(xué)習(xí),再通過某種結(jié)合策略來確定最終的分類強(qiáng)學(xué)習(xí)器。
目前來說,同質(zhì)個(gè)體學(xué)習(xí)器的應(yīng)用是最廣泛的,一般我們常說的集成學(xué)習(xí)的方法都是指的同質(zhì)個(gè)體學(xué)習(xí)器。而同質(zhì)個(gè)體學(xué)習(xí)器使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡(luò)。同質(zhì)個(gè)體學(xué)習(xí)器按照個(gè)體學(xué)習(xí)器之間是否存在依賴關(guān)系可以分為兩