Ansj是由孫?。╝nsjsun)開源的一個中文分詞器,為ICTLAS的Java版本,也采用了Bigram + HMM分詞模型(可參考我之前寫的文章):在Bigram分詞的基礎上,識別未登錄詞,以提高分詞準確度。雖然基本分詞原理與ICTLAS的一樣,但是Ansj做了一些工程上的優(yōu)化,比如:用DAT高效地實現(xiàn)檢索詞典、array + linked-list方式實現(xiàn)分詞DAG、支持自定義詞典與自定義消歧義規(guī)則等。
1. 前言
Ansj支持多種分詞方式,其中ToAnalysis為店長推薦款:
它在易用性,穩(wěn)定性.準確性.以及分詞效率上.都取得了一個不錯的平衡.如果你初次嘗試Ansj如果你想開箱即用.那么就用這個分詞方式是不會錯的.
因此,本文將主要分析ToAnalysis的分詞實現(xiàn)。以下源碼分析基于ansj-5.1.0版本。
延伸閱讀
學習是年輕人改變自己的最好方式