分類導(dǎo)航

機(jī)器學(xué)習(xí) — 發(fā)現(xiàn)群組

發(fā)布時(shí)間：2017年03月14日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點(diǎn)擊查看原文)

聚類

屬于無監(jiān)督學(xué)習(xí)

目的：找到數(shù)據(jù)集中的不同群組

分級(jí)聚類

主要思想是：

在數(shù)據(jù)集中找出兩個(gè)最相似的節(jié)點(diǎn)
根據(jù)這兩個(gè)節(jié)點(diǎn)生成一個(gè)新的聚類節(jié)點(diǎn)，這個(gè)節(jié)點(diǎn)的數(shù)據(jù)為兩個(gè)子節(jié)點(diǎn)的數(shù)據(jù)的平均值,
將兩個(gè)子節(jié)點(diǎn)從數(shù)據(jù)集中去除，將新的聚類節(jié)點(diǎn)加入數(shù)據(jù)
回到1，直至數(shù)據(jù)集中只剩一個(gè)節(jié)點(diǎn)

K-means聚類

使用分級(jí)聚類的時(shí)候，因?yàn)榈糜?jì)算所有數(shù)據(jù)的兩兩之間的距離，形成新的聚類之后還得重新計(jì)算，所以在數(shù)據(jù)集較大的時(shí)候計(jì)算量會(huì)很大。
除了分級(jí)聚類之外還有一種K-均值聚類方法，主要思想為：

隨機(jī)創(chuàng)建（給定）k個(gè)點(diǎn)作為中心點(diǎn)
遍歷數(shù)據(jù)集中每個(gè)點(diǎn)，找到距離最近的中心點(diǎn)，將該點(diǎn)劃分在該中心點(diǎn)下
遍歷并劃分完成后，將各個(gè)中心點(diǎn)移到自己組下所有點(diǎn)的中心位置
回到2，直到移動(dòng)之后的結(jié)果（不變）和上次一樣

結(jié)果展示：使用樹狀圖來展現(xiàn)聚類之后的結(jié)果

import feedparserimport re# testerror_list = []# 返回一個(gè)RSS訂閱源的標(biāo)題和包含單詞計(jì)數(shù)情況的字典def get_word_counts(url):
    # 解析訂閱源
    doc = feedparser.parse(url)    
    # 單詞計(jì)數(shù)
    wc = {}    
    # 遍歷所有文章條目，統(tǒng)計(jì)所有單詞出現(xiàn)次數(shù)
    for entry in doc.entries:        if 'summary' in entry:
            summary = entry.summary        else:
            summary = entry.description        
        # 提取出所有單詞
        words = get_words(entry.title + ' ' + summary)        # 統(tǒng)計(jì)所有單詞出現(xiàn)的次數(shù)
        for word in words:
 &nb
        
        	
        		延伸閱讀
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移動(dòng)安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖
        			2017-07-26
        			
        			
        			
        			消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】
        			2017-07-26
        			
        			
        			
        			詞向量-LRWE模型-更好地識(shí)別反義詞同義詞
        			2017-07-26
        			
        			
        			
        			從棧不平衡問題 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解
        			2017-07-26
        			
        			
        			
        			阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析
        			2017-07-26
        			
        			
        			
        			集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		學(xué)習(xí)是年輕人改變自己的最好方式

分類導(dǎo)航

機(jī)器學(xué)習(xí) — 發(fā)現(xiàn)群組

聚類

分級(jí)聚類

K-means聚類

延伸閱讀

我想了解如何學(xué)習(xí)