考慮到學習知識的順序及效率問題,所以后續(xù)的幾種聚類方法不再詳細講解原理,也不再寫python實現(xiàn)的源代碼,只介紹下算法的基本思路,使大家對每種算法有個直觀的印象,從而可以更好的理解函數(shù)中參數(shù)的意義及作用,而重點是放在如何使用及使用的場景。

     (題外話: 今天看到一篇博文:剛接觸機器學習這一個月我都做了什么?  里面對機器學習階段的劃分很不錯,就目前而言我們只要做到前兩階段即可)

      因為前兩篇博客已經(jīng)介紹了兩種算法,所以這里的算法編號從3開始。

3.Mean-shift

     1)概述

       Mean-shift(即:均值遷移)的基本思想:在數(shù)據(jù)集中選定一個點,然后以這個點為圓心,r為半徑,畫一個圓(二維下是圓),求出這個點到所有點的向量的平均值,而圓心與向量均值的和為新的圓心,然后迭代此過程,直到滿足一點的條件結(jié)束。(Fukunage在1975年提出)

      后來Yizong Cheng 在此基礎(chǔ)上加入了 核函數(shù) 和 權(quán)重系數(shù) ,使得Mean-shift 算法開始流行起來。目前它在聚類、圖像平滑、分割、跟蹤等方面有著廣泛的應(yīng)用。

    2)圖解過程

       為了方便大家理解,借用下幾張圖來說明Mean-shift的基本過程。

       平面設(shè)計培訓,網(wǎng)頁設(shè)計培訓,美工培訓,游戲開發(fā),動畫培訓

        由上圖可以很容易看到,Mean-shift 算法的核心思想就是不斷的尋找新的圓心坐標,直到密度最大的區(qū)域。

    3)Mean-shift 算法函數(shù)

       a)核心函數(shù):sklearn.cluster.MeanShift(核函數(shù):RBF核函數(shù))

           由上圖可知,圓心(或種子)的確定和半徑(或帶寬)的選擇,是影響算法效率的兩個主要因素。所以在sklearn.cluster.MeanShift中重點說明了這兩個參數(shù)的設(shè)定問題。

       b)主要參數(shù)

           bandwidth :半徑(或帶寬),float型。如果沒有給出,則使用sklearn.cluster.estimate_bandwidth計算出半徑(帶寬).(可選)

           seeds :圓心(或種子),數(shù)組類型,即初始化的圓心。(可選)

網(wǎng)友評論