1 簡介

jieba分詞主要是基于統(tǒng)計詞典,構(gòu)造一個前綴詞典;然后利用前綴詞典對輸入句子進行切分,得到所有的切分可能,根據(jù)切分位置,構(gòu)造一個有向無環(huán)圖;通過動態(tài)規(guī)劃算法,計算得到最大概率路徑,也就得到了最終的切分形式。

2 實例講解

以“去北京大學(xué)玩”為例,作為待分詞的輸入文本。

離線統(tǒng)計的詞典形式如下,每一行有三列,第一列是詞,第二列是詞頻,第三列是詞性。

... 北京大學(xué) 2053 nt
大學(xué) 20025 n
去 123402 v
玩 4207 v
北京 34488 ns
北 17860 ns
京 6583 ns
大 144099 a
學(xué) 17482 n ...

2.1 前綴詞典構(gòu)建

首先是基于統(tǒng)計詞典構(gòu)造前綴詞典,如統(tǒng)計詞典中的詞“北京大學(xué)”的前綴分別是“北”、“北京”、“北京大”;詞“大學(xué)”的前綴是“大”。統(tǒng)計詞典中所有的詞形成的前綴詞典如下所示,你也許會注意到“北京大”作為“北京大學(xué)”的前綴,但是它的詞頻卻為0,這是為了便于后面有向無環(huán)圖的構(gòu)建。

... 北京大學(xué) 2053 北京大 0 大學(xué) 200251234024207 北京 34488178606583144099 學(xué) 17482 ...

2.2 有向無環(huán)圖構(gòu)建

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負責任的教育,學(xué)習(xí)改變命運,軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式