分類導(dǎo)航

挑子 tiaozimb@hotmail.com 挑子學習筆記：兩步聚類算法（TwoStep Cluster Algorithm）——改進的BIRCH算法

發(fā)布時間：2016年12月25日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點擊查看原文)

兩步聚類算法是在SPSS Modeler中使用的一種聚類算法，是BIRCH層次聚類算法的改進版本?？梢詰?yīng)用于混合屬性數(shù)據(jù)集的聚類，同時加入了自動確定最佳簇數(shù)量的機制，使得方法更加實用。本文在學習文獻[1]和“IBM SPSS Modeler 15 Algorithms Guide”的基礎(chǔ)上，融入了自己的理解，更詳盡地敘述兩步聚類算法的流程和細節(jié)。閱讀本文之前需要先行學習BIRCH層次聚類算法和對數(shù)似然距離。

兩步聚類算法，顧名思義分為兩個階段：

1）預(yù)聚類（pre-clustering）階段。采用了BIRCH算法中CF樹生長的思想，逐個讀取數(shù)據(jù)集中數(shù)據(jù)點，在生成CF樹的同時，預(yù)先聚類密集區(qū)域的數(shù)據(jù)點，形成諸多的小的子簇（sub-cluster）。

2）聚類（clustering）階段。以預(yù)聚類階段的結(jié)果——子簇為對象，利用凝聚法（agglomerative hierarchical clustering method），逐個地合并子簇，直到期望的簇數(shù)量。

兩步聚類算法的關(guān)鍵技術(shù)如圖所示：

電腦培訓(xùn),計算機培

<div id=

我想了解如何學習

分類導(dǎo)航

挑子 tiaozimb@hotmail.com 挑子學習筆記：兩步聚類算法（TwoStep Cluster Algorithm）——改進的BIRCH算法

延伸閱讀

我想了解如何學習