在主成分分析(PCA)原理總結(jié)中,我們對(duì)降維算法PCA做了總結(jié)。這里我們就對(duì)另外一種經(jīng)典的降維方法線性判別分析(Linear Discriminant Analysis, 以下簡稱LDA)做一個(gè)總結(jié)。LDA在模式識(shí)別領(lǐng)域(比如人臉識(shí)別,艦艇識(shí)別等圖形圖像識(shí)別領(lǐng)域)中有非常廣泛的應(yīng)用,因此我們有必要了解下它的算法原理。
在學(xué)習(xí)LDA之前,有必要將其自然語言處理領(lǐng)域的LDA區(qū)別開來,在自然語言處理領(lǐng)域, LDA是隱含狄利克雷分布(Latent Dirichlet Allocation,簡稱LDA),他是一種處理文檔的主題模型。我們本文只討論線性判別分析,因此后面所有的LDA均指線性判別分析。
1. LDA的思想
LDA是一種監(jiān)督學(xué)習(xí)的降維技術(shù),也就是說它的數(shù)據(jù)集的每個(gè)樣本是有類別輸出的。這點(diǎn)和PCA不同。PCA是不考慮樣本類別輸出的無監(jiān)督降維技術(shù)。LDA的思想可以用一句話概括,就是“投影后類內(nèi)方差最小,類間方差最大”。什么意思呢? 我們要將數(shù)據(jù)在低維度上進(jìn)行投影,投影后希望每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近,而不同類別的數(shù)據(jù)的類別中心之間的距離盡可能的大。
可能還是有點(diǎn)抽象,我們先看看最簡單的情況。假設(shè)我們有兩類數(shù)據(jù) 分別為紅色和藍(lán)色,如下圖所示,這些數(shù)據(jù)特征是二維的,我們希望將這些數(shù)據(jù)投影到一維的一條直線,讓每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近,而紅色和藍(lán)色數(shù)據(jù)中心之間的距離盡可能的大。
上圖中國提供了兩種投影方式,哪一種能更好的滿足我們的標(biāo)準(zhǔn)呢?從直觀上可以看出,右圖要比左圖的投影效果好,因?yàn)橛覉D的黑色數(shù)據(jù)和藍(lán)色數(shù)據(jù)各個(gè)較為集中,且類別之間的距離明顯。左圖則在邊界處數(shù)據(jù)混雜。以上就是LDA的主要思想了,當(dāng)然在實(shí)際應(yīng)用中,我們的數(shù)據(jù)是多個(gè)類別的,我們的原始數(shù)據(jù)一般也是超過二維的,投影后的也一般不是直線,而是一個(gè)低維的超平面。
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26