Svm相關(guān)
Svm相關(guān):
1) SVM方法是通過一個非線性映射p,把樣本空間映射到一個高維乃至無窮維的特征空間中(Hilbert空間),使得在原來的樣本空間中非線性可分的問題轉(zhuǎn)化為在特征空間中的線性可分的問題.
2) 邏輯回歸和SVM的區(qū)別在于邏輯回歸采用的是logistical loss,svm采用的是hinge loss。這兩個損失函數(shù)的目的都是增加對分類影響較大的數(shù)據(jù)點的權(quán)重,減少與分類關(guān)系較小的數(shù)據(jù)點的權(quán)重。SVM的處理方法是只考慮support vectors,也就是和分類最相關(guān)的少數(shù)點,去學習分類器。而邏輯回歸通過非線性映射,大大減小了離分類平面較遠的點的權(quán)重,相對提升了與分類最相關(guān)的數(shù)據(jù)點的權(quán)重。兩者的根本目的都是一樣的。此外,根據(jù)需要,兩個方法都可以增加不同的正則化項,如l1,l2等等。所以在很多實驗中,兩種算法的結(jié)果是很接近的。
但是邏輯回歸相對來說模型更簡單,好理解,實現(xiàn)起來,特別是大規(guī)模線性分類時比較方便。而SVM的理解和優(yōu)化相對來說復雜一些。但是SVM的理論基礎更加牢固,有一套結(jié)構(gòu)化風險最小化的理論基礎,雖然一般使用的人不太會去關(guān)注。還有很重要的一點,SVM轉(zhuǎn)化為對偶問題后,分類只需要計算與少數(shù)幾個支持向量的距離,這個在進行復雜核函數(shù)計算時優(yōu)勢很明顯,能夠大大簡化模型和計算量。
3) 核函數(shù)
SVM關(guān)鍵是選取核函數(shù)的類型,主要有線性內(nèi)核,多項式內(nèi)核,徑向基內(nèi)核(RBF),sigmoid核。最常用的是Linear核與RBF核。
1. Linear核:主要用于線性可分的情形。參數(shù)少,速度快,對于一般數(shù)據(jù),分類效果已經(jīng)很理想了。
2. RBF核:主要用于線性不可分的情形。參數(shù)多,分類結(jié)果非常依賴于參數(shù)。有很多人是通過訓練數(shù)據(jù)的交叉驗證來尋找合適的參數(shù),不過這個過程比較耗時。我個人的體會是:使用libsvm,默認參數(shù),RBF核比Linear核效果稍差。通過進行大量參數(shù)的嘗試,一般能找到比linear核更好的效果
4) 極大似然估計
設X1,X2..Xn是取自總體X的一個樣本。樣本的聯(lián)合密度和聯(lián)合概率函數(shù)為f(X1,X2…Xn,z).當給定樣本X1,X2..Xn時,定義似然函數(shù)L(z)= f(X1,X2…Xn,z),其可看為z的函數(shù)。極大似然估計法就是用使L(z)最大時的z去估計z.此時常用的方法是:
對等式兩邊同時取對數(shù),并每一個要估計的值求偏導,并使導數(shù)為零,解多遠一次方程組即可。
5)k-means
隨機選取k個中心點,計算聚類,更新中心點。迭代上述操作,直到前后兩次中心點結(jié)果一樣。求中心點方法:求和加權(quán)平均
判斷其他點所屬簇的方法:依次求得該點距k個中心點的距離,取距離最小的中心點所在簇為其所屬簇。