Ansj是由孫?。╝nsjsun)開源的一個中文分詞器,為ICTLAS的Java版本,也采用了Bigram + HMM分詞模型(可參考我之前寫的文章):在Bigram分詞的基礎上,識別未登錄詞,以提高分詞準確度。雖然基本分詞原理與ICTLAS的一樣,但是Ansj做了一些工程上的優(yōu)化,比如:用DAT高效地實現(xiàn)檢索詞典、array + linked-list方式實現(xiàn)分詞DAG、支持自定義詞典與自定義消歧義規(guī)則等。

1. 前言

Ansj支持多種分詞方式,其中ToAnalysis為店長推薦款:

它在易用性,穩(wěn)定性.準確性.以及分詞效率上.都取得了一個不錯的平衡.如果你初次嘗試Ansj如果你想開箱即用.那么就用這個分詞方式是不會錯的.

因此,本文將主要分析ToAnalysis的分詞實現(xiàn)。以下源碼分析基于ansj-5.1.0版本。

延伸閱讀

學習是年輕人改變自己的最好方式-Java培訓,做最負責任的教育,學習改變命運,軟件學習,再就業(yè),大學生如何就業(yè),幫大學生找到好工作,lphotoshop培訓,電腦培訓,電腦維修培訓,移動軟件開發(fā)培訓,網(wǎng)站設計培訓,網(wǎng)站建設培訓學習是年輕人改變自己的最好方式