集成學習(ensemble learning)可以說是現(xiàn)在非常火爆的機器學習方法了。它本身不是一個單獨的機器學習算法,而是通過構建并結合多個機器學習器來完成學習任務。也就是我們常說的“博采眾長”。集成學習可以用于分類問題集成,回歸問題集成,特征選取集成,異常點檢測集成等等,可以說所有的機器學習領域都可以看到集成學習的身影。本文就對集成學習的原理做一個總結。

1. 集成學習概述

    從下圖,我們可以對集成學習的思想做一個概括。對于訓練集數(shù)據(jù),我們通過訓練若干個個體學習器,通過一定的結合策略,就可以最終形成一個強學習器,以達到博采眾長的目的。

seo優(yōu)化培訓,網絡推廣培訓,網絡營銷培訓,SEM培訓,網絡優(yōu)化,在線營銷培訓

    也就是說,集成學習有兩個主要的問題需要解決,第一是如何得到若干個個體學習器,第二是如何選擇一種結合策略,將這些個體學習器集合成一個強學習器。

2. 集成學習之個體學習器

    上一節(jié)我們講到,集成學習的第一個問題就是如何得到若干個個體學習器。這里我們有兩種選擇。

    第一種就是所有的個體學習器都是一個種類的,或者說是同質的。比如都是決策樹個體學習器,或者都是神經網絡個體學習器。第二種是所有的個體學習器不全是一個種類的,或者說是異質的。比如我們有一個分類問題,對訓練集采用支持向量機個體學習器,邏輯回歸個體學習器和樸素貝葉斯個體學習器來學習,再通過某種結合策略來確定最終的分類強學習器。

    目前來說,同質個體學習器的應用是最廣泛的,一般我們常說的集成學習的方法都是指的同質個體學習器。而同質個體學習器使用最多的模型