Ansj是由孫健(ansjsun)開(kāi)源的一個(gè)中文分詞器,為ICTLAS的Java版本,也采用了Bigram + HMM分詞模型(可參考我之前寫(xiě)的文章):在Bigram分詞的基礎(chǔ)上,識(shí)別未登錄詞,以提高分詞準(zhǔn)確度。雖然基本分詞原理與ICTLAS的一樣,但是Ansj做了一些工程上的優(yōu)化,比如:用DAT高效地實(shí)現(xiàn)檢索詞典、array + linked-list方式實(shí)現(xiàn)分詞DAG、支持自定義詞典與自定義消歧義規(guī)則等。
1. 前言
Ansj支持多種分詞方式,其中ToAnalysis為店長(zhǎng)推薦款:
它在易用性,穩(wěn)定性.準(zhǔn)確性.以及分詞效率上.都取得了一個(gè)不錯(cuò)的平衡.如果你初次嘗試Ansj如果你想開(kāi)箱即用.那么就用這個(gè)分詞方式是不會(huì)錯(cuò)的.
因此,本文將主要分析ToAnalysis的分詞實(shí)現(xiàn)。以下源碼分析基于ansj-5.1.0版本。
網(wǎng)友評(píng)論