在主成分分析(PCA)原理總結(jié)中,我們對(duì)降維算法PCA做了總結(jié)。這里我們就對(duì)另外一種經(jīng)典的降維方法線性判別分析(Linear Discriminant Analysis, 以下簡(jiǎn)稱LDA)做一個(gè)總結(jié)。LDA在模式識(shí)別領(lǐng)域(比如人臉識(shí)別,艦艇識(shí)別等圖形圖像識(shí)別領(lǐng)域)中有非常廣泛的應(yīng)用,因此我們有必要了解下它的算法原理。
在學(xué)習(xí)LDA之前,有必要將其自然語言處理領(lǐng)域的LDA區(qū)別開來,在自然語言處理領(lǐng)域, LDA是隱含狄利克雷分布(Latent Dirichlet Allocation,簡(jiǎn)稱LDA),他是一種處理文檔的主題模型。我們本文只討論線性判別分析,因此后面所有的LDA均指線性判別分析。
1. LDA的思想
LDA是一種監(jiān)督學(xué)習(xí)的降維技術(shù),也就是說它的數(shù)據(jù)集的每個(gè)樣本是有類別輸出的。這點(diǎn)和PCA不同。PCA是不考慮樣本類別輸出的無監(jiān)督降維技術(shù)。LDA的思想可以用一句話概括,就是“投影后類內(nèi)方差最小,類間方差最大”。什么意思呢? 我們要將數(shù)據(jù)在低維度上進(jìn)行投影,投影后希望每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近,而不同類別的數(shù)據(jù)的類別中心之間的距離盡可能的大。
可能還是有點(diǎn)抽象,我們先看看最簡(jiǎn)單的情況。假設(shè)我們有兩類數(shù)據(jù) 分別為紅色和藍(lán)色,如下圖所示,這些數(shù)據(jù)特征是二維的,我們希望將這些數(shù)據(jù)投影到一維的一條直線,讓每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近,而紅色和藍(lán)色數(shù)據(jù)中心之間的距離盡可能的大。
上圖中國提供了兩種投影方式,哪一種能更好的滿足我們的標(biāo)準(zhǔn)呢?從直觀上可以看出,右圖要比左圖的投影效果好,因?yàn)橛覉D的黑色數(shù)據(jù)和藍(lán)色數(shù)據(jù)各個(gè)較為集中,且類別之間的距離明顯。左圖則在邊界處數(shù)據(jù)混雜。以上就是LDA的主要思想了,當(dāng)然在實(shí)際應(yīng)用中,我們的數(shù)據(jù)是多個(gè)類別的,我們的原始數(shù)據(jù)一般也是超過二維的,投影后的也一般不是直線,而是一個(gè)低維的超平面。