分類導(dǎo)航

NLTK學(xué)習(xí)筆記(六):利用機器學(xué)習(xí)進行文本分類

發(fā)布時間：2017年06月22日作者： IT網(wǎng)絡(luò)文摘 (該文來自筆記，點擊查看原文)

一、監(jiān)督式分類：建立在訓(xùn)練語料基礎(chǔ)上的分類

訓(xùn)練過程中，特征提取器將輸入轉(zhuǎn)化為特征集，并且記錄對應(yīng)的正確分類。生成模型。預(yù)測過程中，未見過的輸入被轉(zhuǎn)換特征集，通過模型產(chǎn)生預(yù)測標(biāo)簽。

特征提取器和樸素貝葉斯分類器

特征提取器返回字典，這個字典被稱為特征集。然后利用
nltk自帶的樸素貝葉斯分類器 NaiveBayesClassifier 生成分類器。并且可以用nltk.classify.accuracy(分類器,測試集) 測試準(zhǔn)確度。

import nltkfrom nltk.corpus import namesimport randomdef gender_features(word): #特征提取器
    return {'last_letter':word[-1]} #特征集就是最后一個字母names = [(name,'male') for name in names.words('male.txt')]+[(name,'female') for name in names.words('female.txt')]
random.shuffle(names)#將序列打亂features = [(gender_features(n),g) for (n,g) in names]#返回對應(yīng)的特征和標(biāo)簽train,test = features[500:],features[:500] #訓(xùn)練集和測試集classifier = nltk.NaiveBayesClassifier.train(train) #生
        
        	
        		延伸閱讀
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍牙鎖
        			2017-07-26
        			
        			
        			
        			消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】
        			2017-07-26
        			
        			
        			
        			詞向量-LRWE模型-更好地識別反義詞同義詞
        			2017-07-26
        			
        			
        			
        			從棧不平衡問題 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解
        			2017-07-26
        			
        			
        			
        			阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析
        			2017-07-26
        			
        			
        			
        			集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		學(xué)習(xí)是年輕人改變自己的最好方式

分類導(dǎo)航

NLTK學(xué)習(xí)筆記(六):利用機器學(xué)習(xí)進行文本分類

一、監(jiān)督式分類：建立在訓(xùn)練語料基礎(chǔ)上的分類

特征提取器和樸素貝葉斯分類器

延伸閱讀

我想了解如何學(xué)習(xí)