一、監(jiān)督式分類:建立在訓練語料基礎上的分類

訓練過程中,特征提取器將輸入轉(zhuǎn)化為特征集,并且記錄對應的正確分類。生成模型。預測過程中,未見過的輸入被轉(zhuǎn)換特征集,通過模型產(chǎn)生預測標簽。

特征提取器和樸素貝葉斯分類器

特征提取器返回字典,這個字典被稱為特征集。然后利用
nltk自帶的樸素貝葉斯分類器 NaiveBayesClassifier 生成分類器。并且可以用nltk.classify.accuracy(分類器,測試集) 測試準確度。

import nltkfrom nltk.corpus import namesimport randomdef gender_features(word): #特征提取器
    return {'last_letter':word[-1]} #特征集就是最后一個字母names = [(name,'male') for name in names.words('male.txt')]+[(name,'female') for name in names.words('female.txt')]
random.shuffle(names)#將序列打亂features = [(gender_features(n),g) for (n,g) in names]#返回對應的特征和標簽train,test = features[500:],features[:500] #訓練集和測試集classifier = nltk.NaiveBayesClassifier.train(train) #生