1 簡介
jieba分詞主要是基于統(tǒng)計詞典,構(gòu)造一個前綴詞典;然后利用前綴詞典對輸入句子進行切分,得到所有的切分可能,根據(jù)切分位置,構(gòu)造一個有向無環(huán)圖;通過動態(tài)規(guī)劃算法,計算得到最大概率路徑,也就得到了最終的切分形式。
2 實例講解
以“去北京大學(xué)玩”為例,作為待分詞的輸入文本。
離線統(tǒng)計的詞典形式如下,每一行有三列,第一列是詞,第二列是詞頻,第三列是詞性。
... 北京大學(xué) 2053 nt
大學(xué) 20025 n
去 123402 v
玩 4207 v
北京 34488 ns
北 17860 ns
京 6583 ns
大 144099 a
學(xué) 17482 n ...
2.1 前綴詞典構(gòu)建
首先是基于統(tǒng)計詞典構(gòu)造前綴詞典,如統(tǒng)計詞典中的詞“北京大學(xué)”的前綴分別是“北”、“北京”、“北京大”;詞“大學(xué)”的前綴是“大”。統(tǒng)計詞典中所有的詞形成的前綴詞典如下所示,你也許會注意到“北京大”作為“北京大學(xué)”的前綴,但是它的詞頻卻為0,這是為了便于后面有向無環(huán)圖的構(gòu)建。
... 北京大學(xué) 2053 北京大 0 大學(xué) 20025 去 123402 玩 4207 北京 34488 北 17860 京 6583 大 144099 學(xué) 17482 ...
2.2 有向無環(huán)圖構(gòu)建
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26