分類導航

中文分詞工具探析（一）：ICTCLAS (NLPIR)

發(fā)布時間：2016年12月28日作者：文章轉自網絡，版權歸原作者所有，反饋可立刻刪除 (該文來自筆記，點擊查看原文)

1. 前言

ICTCLAS是張華平在2000年推出的中文分詞系統(tǒng)，于2009年更名為NLPIR。ICTCLAS是中文分詞界元老級工具了，作者開放出了free版本的源代碼（1.0整理版本在此). 作者在論文[1] 中宣稱ICTCLAS是基于HHMM（Hierarchical Hidden Markov Model）實現，后在論文[2]中改成了基于層疊隱馬爾可夫模型CHMM（Cascaded Hidden Markov Model）。我把HHMM的原論文[3]讀了一遍，對照ICTCLAS源碼，發(fā)現ICTCLAS本質上就是一個Bigram的Word-Based Generative Model，用HMM來做未登錄詞識別（修正分詞）與詞性標注，與HHMM沒有半毛錢關系。Biagram語法模型對應于1階Markov假設，則ICTCLAS分詞模型的聯合概率為

我想了解如何學習

分類導航

中文分詞工具探析（一）：ICTCLAS (NLPIR)

1. 前言

延伸閱讀

我想了解如何學習