1. 前言

Jieba是由fxsjy大神開(kāi)源的一款中文分詞工具,一款屬于工業(yè)界的分詞工具——模型易用簡(jiǎn)單、代碼清晰可讀,推薦有志學(xué)習(xí)NLP或Python的讀一下源碼。與采用分詞模型Bigram + HMM 的ICTCLAS 相類似,Jieba采用的是Unigram + HMM。Unigram假設(shè)每個(gè)詞相互獨(dú)立,則分詞組合的聯(lián)合概率:

網(wǎng)友評(píng)論