分類導(dǎo)航

5-Spark高級數(shù)據(jù)分析-第五章基于K均值聚類的網(wǎng)絡(luò)流量異常檢測

發(fā)布時間：2016年12月12日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點擊查看原文)

據(jù)我們所知，有‘已知的已知’，有些事，我們知道我們知道；我們也知道，有 ‘已知的未知’，也就是說，有些事，我們現(xiàn)在知道我們不知道。但是，同樣存在‘不知的不知’——有些事，我們不知道我們不知道。

上一章中分類和回歸都屬于監(jiān)督學(xué)習(xí)。當(dāng)目標(biāo)值是未知時，需要使用非監(jiān)督學(xué)習(xí)，非監(jiān)督學(xué)習(xí)不會學(xué)習(xí)如何預(yù)測目標(biāo)值。但是，它可以學(xué)習(xí)數(shù)據(jù)的結(jié)構(gòu)并找出相似輸入的群組，或者學(xué)習(xí)哪些輸入類型可能出現(xiàn)，哪些類型不可能出現(xiàn)。

5.1 異常檢測

異常檢測常用于檢測欺詐、網(wǎng)絡(luò)攻擊、服務(wù)器及傳感設(shè)備故障。在這些應(yīng)用中，我們要能夠找出以前從未見過的新型異常，如新欺詐方式、新入侵方法或新服務(wù)器故障模式。

5.2 K均值聚類

聚類是最有名的非監(jiān)督學(xué)習(xí)算法，K均值聚類是應(yīng)用最廣泛的聚類算法。它試圖在數(shù)據(jù)集中找出k個簇群。在K均值算法中數(shù)據(jù)點相互距離一般采用歐氏距離。

在K均值算法中簇群其實是一個點，即組成該簇的所有點的中信。數(shù)據(jù)點其實就是由所有數(shù)值型特征組成的特征向量，簡稱向量。

簇群的中心稱為質(zhì)心，它是簇群中所有點的算術(shù)平均值，因此算法取名K均值。算法開始時選擇一些數(shù)據(jù)點作為簇群的質(zhì)心。然后把每個數(shù)據(jù)點分配給最近的質(zhì)心。接著對每個簇計算該簇所有數(shù)據(jù)點的平均值，并將其作為該簇的新質(zhì)心。然后不斷重復(fù)這個過程。

分類導(dǎo)航

5-Spark高級數(shù)據(jù)分析-第五章基于K均值聚類的網(wǎng)絡(luò)流量異常檢測

5.1 異常檢測

5.2 K均值聚類

5.3 網(wǎng)絡(luò)入侵

延伸閱讀

我想了解如何學(xué)習(xí)

分類導(dǎo)航

5-Spark高級數(shù)據(jù)分析-第五章 基于K均值聚類的網(wǎng)絡(luò)流量異常檢測

5.1 異常檢測

5.2 K均值聚類

5.3 網(wǎng)絡(luò)入侵

延伸閱讀

我想了解如何學(xué)習(xí)

5-Spark高級數(shù)據(jù)分析-第五章基于K均值聚類的網(wǎng)絡(luò)流量異常檢測