1. 前言
ICTCLAS是張華平在2000年推出的中文分詞系統(tǒng),于2009年更名為NLPIR。ICTCLAS是中文分詞界元老級工具了,作者開放出了free版本的源代碼(1.0整理版本在此). 作者在論文[1] 中宣稱ICTCLAS是基于HHMM(Hierarchical Hidden Markov Model)實現,后在論文[2]中改成了基于層疊隱馬爾可夫模型CHMM(Cascaded Hidden Markov Model)。我把HHMM的原論文[3]讀了一遍,對照ICTCLAS源碼,發(fā)現ICTCLAS本質上就是一個Bigram的Word-Based Generative Model,用HMM來做未登錄詞識別(修正分詞)與詞性標注,與HHMM沒有半毛錢關系。Biagram語法模型對應于1階Markov假設,則ICTCLAS分詞模型的聯合概率為