中文文本分類不像英文文本分類一樣只需要將單詞一個個分開就可以了,中文文本分類需要將文字組成的詞語分出來構(gòu)成一個個向量。所以,需要分詞。
這里使用網(wǎng)上流行的開源分詞工具結(jié)巴分詞(jieba),它可以有效的將句子里的詞語一個個的提取出來,關(guān)于結(jié)巴分詞的原理此處不再贅述,關(guān)鍵是他的使用方法。
1、安裝
結(jié)巴分詞是一個Python的工具函數(shù)庫,在python環(huán)境下安裝,安裝方式如下:
(1)python2.x下
全自動安裝 :easy_install jieba 或者 pip install jieba
半自動安裝 :先下載http://pypi.python.org/pypi/jieba/ ,解壓后運行python setup.py install
手動安裝 :將jieba目錄放置于當(dāng)前目錄或者site-packages目錄
通過import jieba 來引用
(2)python3.x下
目前master分支是只支持Python2.x 的
Python3.x 版本的分支也已經(jīng)基本可用: https://github.com/fxsjy/jieba/tree/jieba3k

git clone https://github.com/fxsjy/jieba.git
git checkout jieba3k
python setup.py install

2、使用
在使用它的時候首先要用import jieba代碼導(dǎo)入jieba庫,而由于中文文本中可能除了文本內(nèi)容以外還有一些符號比如括號、等號或箭頭等,還需要將這些通過正則表達(dá)式的方式匹配出來并刪除,
由于使用到了正則表達(dá)式,所以還需要使用import re來導(dǎo)入相關(guān)函數(shù)庫。
具體代碼如下:

def textParse(sentence):
    import jieba
    import re
    #以下兩行過濾出中文及字符串以外的其他符號
    r= re.compile("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()