分類(lèi)導(dǎo)航

開(kāi)源中文分詞工具探析（三）：Ansj

發(fā)布時(shí)間：2017年01月12日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

Ansj是由孫健（ansjsun）開(kāi)源的一個(gè)中文分詞器，為ICTLAS的Java版本，也采用了Bigram + HMM分詞模型（可參考我之前寫(xiě)的文章）：在Bigram分詞的基礎(chǔ)上，識(shí)別未登錄詞，以提高分詞準(zhǔn)確度。雖然基本分詞原理與ICTLAS的一樣，但是Ansj做了一些工程上的優(yōu)化，比如：用DAT高效地實(shí)現(xiàn)檢索詞典、array + linked-list方式實(shí)現(xiàn)分詞DAG、支持自定義詞典與自定義消歧義規(guī)則等。

1. 前言

Ansj支持多種分詞方式，其中ToAnalysis為店長(zhǎng)推薦款：

它在易用性,穩(wěn)定性.準(zhǔn)確性.以及分詞效率上.都取得了一個(gè)不錯(cuò)的平衡.如果你初次嘗試Ansj如果你想開(kāi)箱即用.那么就用這個(gè)分詞方式是不會(huì)錯(cuò)的.

因此，本文將主要分析ToAnalysis的分詞實(shí)現(xiàn)。以下源碼分析基于ansj-5.1.0版本。

`網(wǎng)友評(píng)論`


		
    	
    	
        	
        		更多精彩分享
        		
        			
        		
        			
	        		
	        		學(xué)習(xí)是年輕人改變自己的最好方式