分類導(dǎo)航

中文分詞工具thulac4j重磅發(fā)布

發(fā)布時(shí)間：2017年06月13日作者： IT網(wǎng)絡(luò)文摘 (該文來自筆記，點(diǎn)擊查看原文)

1. 介紹

thulac4j是THULAC的Java 8工程化實(shí)現(xiàn)，相比于官方版THULAC-Java，我們做了如下工作：

規(guī)范化分詞詞典，并去掉一些無用詞；
重寫DAT（雙數(shù)組Trie樹）的構(gòu)造算法，生成的DAT size減少了8%左右，從而節(jié)省了內(nèi)存；
優(yōu)化分詞算法，提高了分詞速率。

若想在項(xiàng)目中使用thulac4j，可添加依賴：

<dependency>
  <groupId>io.github.yizhiru</groupId>
  <artifactId>thulac4j</artifactId>
  <version>${thulac4j.version}</version></dependency>

thulac4j支持兩種分詞模式：

SegOnly模式，只分詞沒有詞性標(biāo)注；
SegPos模式，分詞兼有詞性標(biāo)注。

// SegOnly modeString sentence = "滔滔的流水，向著波士頓灣無聲逝去";
SegOnly seg = new SegOnly("models/seg_only.bin");
System.out.println(seg.segment(sentence));// [滔滔, 的, 流水, ，, 向著, 波士頓灣, 無聲, 逝去]// SegPos modeSegPos pos = new SegPos("models/seg_pos.bin");
System.out.println(pos.segment(sentence));//[滔滔/a, 的/u, 流水/n, ，/w, 向著/p, 波士頓灣/ns, 無聲/v, 逝去/v]

SegOnly分詞速度更快，但是準(zhǔn)確率較SegPos模式要低；而SegPos具有更高的準(zhǔn)確率，內(nèi)存占用更多、分詞速度較慢（請(qǐng)參看性能測試）。此外分詞需要下載訓(xùn)練模型數(shù)據(jù)

`延伸閱讀`


        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移動(dòng)安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖
        			2017-07-26
        			
        			
        			
        			消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】
        			2017-07-26
        			
        			
        			
        			詞向量-LRWE模型-更好地識(shí)別反義詞同義詞
        			2017-07-26
        			
        			
        			
        			從棧不平衡問題 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解
        			2017-07-26
        			
        			
        			
        			阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析
        			2017-07-26
        			
        			
        			
        			集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		學(xué)習(xí)是年輕人改變自己的最好方式





 
	
	
	

	
	
	
		
		


    我想了解如何學(xué)習(xí)
    
        










    
    



    

    
 	






	
    
     	
    		姓名：
    		
    		
    	

    	  	
    	
    		手機(jī)：
    		
    		
    	
	
    
    
    
    	
    	
    		留言：
    		
    		
    	 
    	
   		


    	
    		 
    		
    		
    	
     	
    
  
  
  


	
	





 
	
	
	

	
	







	
	 
	
  

	
	
		




  


 
	
	
	

	
	


      
      	
      	
      		
        	16年我們追求卓越
       	
      		
        	24項(xiàng)主流技術(shù)引領(lǐng)先鋒
       	
      		
        	1000課時(shí)打造職場干將
       	
      		
        	50000行代碼練就非凡本領(lǐng)
       	  
         
        
        	
        	
        	
            	關(guān)于萬碼學(xué)堂
            	
            		
                	校園環(huán)境
                    
                	聯(lián)系我們
                    
                	網(wǎng)站地圖
                    
                
             
            
            
        	
        	
            	關(guān)于學(xué)習(xí)
            	
            		
                	課程體系
                    
                	關(guān)于萬碼
                    
                	課程體系
                    
                
             
            
            
        	
        	
            	報(bào)名方法
            	
            		
                	申請(qǐng)?jiān)嚶?/a>

                    
                	在線報(bào)名
                    
                
             
            
            
        	
        	
            	常見問題
            	
            		
                	大家關(guān)注
                    
                	在線提問
                    
                	學(xué)習(xí)方面
                    
                
             
            
                   
        	
            	關(guān)注我們
            	
                	新浪微博
                    聯(lián)系我們
                    聯(lián)系微信
                
               
            
            
                
                    
                        0532-85025005
                    
                    
                        馬上咨詢，周一至周日8:00-18:00
                    
                    
                        在線客服
                    
                 
                                                                     
        
      
    
    	
    	
    		
        	萬碼學(xué)員實(shí)訓(xùn)作品
        	
        
    		
        	IT企業(yè)招聘信息
        	
        
    		
        	在萬碼學(xué)堂奮斗的歲月
        	
        
    		
        	編程知識(shí)分享
        	
        
    		
        	你想了解的萬碼學(xué)堂
        	
        
    		
        	青島軟件培訓(xùn)課程
        	
        
    		
        	IT行業(yè)動(dòng)態(tài)
        	
        
    		
        	職場人生
        	
        
    		
        	學(xué)習(xí)編程的感想
        	
        
    		
        	萬碼學(xué)員風(fēng)采
        	
        
    		
        
    		
        	萬碼學(xué)堂技術(shù)專家
        	
        
    		
        
    		
        
    		
        
    		
        
    		
        
    		
        
    		
        
    		
        
    		
        
    		
        
        
    
    
    
    欄目導(dǎo)航：
    
    	
    	
    	如何學(xué)習(xí)軟件
    	
    
    	
    	
    	關(guān)于萬碼學(xué)堂
    	
    
    	
    	
    	開班信息
    	
    
    	
    	
    	關(guān)注點(diǎn)
    	
    
    
    旗下網(wǎng)站：
    
    	青島IT培訓(xùn)網(wǎng)
    
    	程序猿編程派
    
    	青島電腦學(xué)校
    
    	青島Android培訓(xùn)
    
    	青島軟件培訓(xùn)
    
    	云培訓(xùn)
    
    	萬碼學(xué)堂官網(wǎng)
    
    	青島大學(xué)生IT培訓(xùn)
    
        
    
    青島青軟職業(yè)培訓(xùn)學(xué)校萬碼學(xué)堂（辦學(xué)許可證編號(hào)：人社民3702023080012號(hào)）魯ICP備09077726號(hào)qingruanit.net
    
        

          青島市市南區(qū)南京路122號(hào)B1棟3層 咨詢電話0532-85025005
            
    
     
    
    	
    


	
 
  
  





感谢您访问我们的网站，您可能还对以下资源感兴趣：
国产一卡2卡三卡4卡











<mark id="7iflq"></mark>