中文文本分類不像英文文本分類一樣只需要將單詞一個(gè)個(gè)分開就可以了,中文文本分類需要將文字組成的詞語分出來構(gòu)成一個(gè)個(gè)向量。所以,需要分詞。
這里使用網(wǎng)上流行的開源分詞工具結(jié)巴分詞(jieba),它可以有效的將句子里的詞語一個(gè)個(gè)的提取出來,關(guān)于結(jié)巴分詞的原理此處不再贅述,關(guān)鍵是他的使用方法。
1、安裝
結(jié)巴分詞是一個(gè)Python的工具函數(shù)庫,在python環(huán)境下安裝,安裝方式如下:
(1)python2.x下
全自動(dòng)安裝 :easy_install jieba 或者 pip install jieba
半自動(dòng)安裝 :先下載http://pypi.python.org/pypi/jieba/ ,解壓后運(yùn)行python setup.py install
手動(dòng)安裝 :將jieba目錄放置于當(dāng)前目錄或者site-packages目錄
通過import jieba 來引用
(2)python3.x下
目前master分支是只支持Python2.x 的
Python3.x 版本的分支也已經(jīng)基本可用: https://github.com/fxsjy/jieba/tree/jieba3k

git clone https://github.com/fxsjy/jieba.git
git checkout jieba3k
python setup.py install

2、使用
在使用它的時(shí)候首先要用import jieba代碼導(dǎo)入jieba庫,而由于中文文本中可能除了文本內(nèi)容以外還有一些符號(hào)比如括號(hào)、等號(hào)或箭頭等,還需要將這些通過正則表達(dá)式的方式匹配出來并刪除,
由于使用到了正則表達(dá)式,所以還需要使用import re來導(dǎo)入相關(guān)函數(shù)庫。
具體代碼如下:

def textParse(sentence):
    import jieba
    import re
    #以下兩行過濾出中文及字符串以外的其他符號(hào)
    r= re.compile("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()