分類(lèi)導(dǎo)航

結(jié)巴（jieba）中文分詞及其應(yīng)用實(shí)踐

發(fā)布時(shí)間：2017年07月10日作者： IT網(wǎng)絡(luò)文摘 (該文來(lái)自筆記，點(diǎn)擊查看原文)

中文文本分類(lèi)不像英文文本分類(lèi)一樣只需要將單詞一個(gè)個(gè)分開(kāi)就可以了，中文文本分類(lèi)需要將文字組成的詞語(yǔ)分出來(lái)構(gòu)成一個(gè)個(gè)向量。所以，需要分詞。
這里使用網(wǎng)上流行的開(kāi)源分詞工具結(jié)巴分詞（jieba），它可以有效的將句子里的詞語(yǔ)一個(gè)個(gè)的提取出來(lái)，關(guān)于結(jié)巴分詞的原理此處不再贅述，關(guān)鍵是他的使用方法。
1、安裝
結(jié)巴分詞是一個(gè)Python的工具函數(shù)庫(kù)，在python環(huán)境下安裝，安裝方式如下：
（1）python2.x下
全自動(dòng)安裝：easy_install jieba 或者 pip install jieba
半自動(dòng)安裝：先下載http://pypi.python.org/pypi/jieba/ ，解壓后運(yùn)行python setup.py install
手動(dòng)安裝：將jieba目錄放置于當(dāng)前目錄或者site-packages目錄
通過(guò)import jieba 來(lái)引用
（2）python3.x下
目前master分支是只支持Python2.x 的
Python3.x 版本的分支也已經(jīng)基本可用： https://github.com/fxsjy/jieba/tree/jieba3k

git clone https://github.com/fxsjy/jieba.git
git checkout jieba3k
python setup.py install

2、使用
在使用它的時(shí)候首先要用import jieba代碼導(dǎo)入jieba庫(kù)，而由于中文文本中可能除了文本內(nèi)容以外還有一些符號(hào)比如括號(hào)、等號(hào)或箭頭等，還需要將這些通過(guò)正則表達(dá)式的方式匹配出來(lái)并刪除，
由于使用到了正則表達(dá)式，所以還需要使用import re來(lái)導(dǎo)入相關(guān)函數(shù)庫(kù)。
具體代碼如下：

def textParse(sentence):
    import jieba
    import re
    #以下兩行過(guò)濾出中文及字符串以外的其他符號(hào)
    r= re.compile("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）
        
        	
        		延伸閱讀
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖
        			2017-07-26
        			
        			
        			
        			消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】
        			2017-07-26
        			
        			
        			
        			詞向量-LRWE模型-更好地識(shí)別反義詞同義詞
        			2017-07-26
        			
        			
        			
        			從棧不平衡問(wèn)題 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解
        			2017-07-26
        			
        			
        			
        			阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析
        			2017-07-26
        			
        			
        			
        			集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		學(xué)習(xí)是年輕人改變自己的最好方式

分類(lèi)導(dǎo)航

結(jié)巴（jieba）中文分詞及其應(yīng)用實(shí)踐

延伸閱讀

我想了解如何學(xué)習(xí)