1. 前言

ICTCLAS是張華平在2000年推出的中文分詞系統(tǒng),于2009年更名為NLPIR。ICTCLAS是中文分詞界元老級工具了,作者開放出了free版本的源代碼(1.0整理版本在此). 作者在論文[1] 中宣稱ICTCLAS是基于HHMM(Hierarchical Hidden Markov Model)實現,后在論文[2]中改成了基于層疊隱馬爾可夫模型CHMM(Cascaded Hidden Markov Model)。我把HHMM的原論文[3]讀了一遍,對照ICTCLAS源碼,發(fā)現ICTCLAS本質上就是一個Bigram的Word-Based Generative Model,用HMM來做未登錄詞識別(修正分詞)與詞性標注,與HHMM沒有半毛錢關系。Biagram語法模型對應于1階Markov假設,則ICTCLAS分詞模型的聯合概率為

延伸閱讀

學習是年輕人改變自己的最好方式-Java培訓,做最負責任的教育,學習改變命運,軟件學習,再就業(yè),大學生如何就業(yè),幫大學生找到好工作,lphotoshop培訓,電腦培訓,電腦維修培訓,移動軟件開發(fā)培訓,網站設計培訓,網站建設培訓學習是年輕人改變自己的最好方式