考慮到學(xué)習(xí)知識的順序及效率問題,所以后續(xù)的幾種聚類方法不再詳細(xì)講解原理,也不再寫python實(shí)現(xiàn)的源代碼,只介紹下算法的基本思路,使大家對每種算法有個(gè)直觀的印象,從而可以更好的理解函數(shù)中參數(shù)的意義及作用,而重點(diǎn)是放在如何使用及使用的場景。
(題外話: 今天看到一篇博文:剛接觸機(jī)器學(xué)習(xí)這一個(gè)月我都做了什么? 里面對機(jī)器學(xué)習(xí)階段的劃分很不錯(cuò),就目前而言我們只要做到前兩階段即可)
因?yàn)榍皟善┛鸵呀?jīng)介紹了兩種算法,所以這里的算法編號從3開始。
3.Mean-shift
1)概述
Mean-shift(即:均值遷移)的基本思想:在數(shù)據(jù)集中選定一個(gè)點(diǎn),然后以這個(gè)點(diǎn)為圓心,r為半徑,畫一個(gè)圓(二維下是圓),求出這個(gè)點(diǎn)到所有點(diǎn)的向量的平均值,而圓心與向量均值的和為新的圓心,然后迭代此過程,直到滿足一點(diǎn)的條件結(jié)束。(Fukunage在1975年提出)
后來Yizong Cheng 在此基礎(chǔ)上加入了 核函數(shù) 和 權(quán)重系數(shù) ,使得Mean-shift 算法開始流行起來。目前它在聚類、圖像平滑、分割、跟蹤等方面有著廣泛的應(yīng)用。
2)圖解過程
為了方便大家理解,借用下幾張圖來說明Mean-shift的基本過程。
由上圖可以很容易看到,Mean-shift 算法的核心思想就是不斷的尋找新的圓心坐標(biāo),直到密度最大的區(qū)域。
3)Mean-shift 算法函數(shù)
a)核心函數(shù):sklearn.cluster.MeanShift(核函數(shù):RBF核函數(shù))
由上圖可知,圓心(或種子)的確定和半徑(或帶寬)的選擇,是影響算法效率的兩個(gè)主要因素。所以在sklearn.cluster.MeanShift中重點(diǎn)說明了這兩個(gè)參數(shù)的設(shè)定問題。
b)主要參數(shù)
bandwidth :半徑(或帶寬),float型。如果沒有給出,則使用sklearn.cluster.estimate_bandwidth計(jì)算出半徑(帶寬).(可選)
seeds :圓心(或種子),數(shù)組類型,即初始化的圓心。(可選)