1 簡介
詞性(part-of-speech)是詞匯基本的語法范疇,通常也稱為詞類,主要用來描述一個詞在上下文的作用。例如,描述一個概念的詞就是名詞,在下文引用這個名詞的詞就是代詞。有的詞性經(jīng)常會出現(xiàn)一些新的詞,例如名詞,這樣的詞性叫做開放式詞性。另外一些詞性中的詞比較固定,例如代詞,這樣的詞性叫做封閉式詞性。因為存在一個詞對應(yīng)多個詞性的現(xiàn)象,所以給詞準確地標注詞性并不是很容易。例如,“改革”在“中國開始對計劃經(jīng)濟體制進行改革”這句話中是一個動詞,但是在“醫(yī)藥衛(wèi)生改革中的經(jīng)濟問題”這個句子中是一個名詞。把這個問題抽象出來,就是已知單詞序列,給每個單詞標注詞性。詞性標注是自然語言處理中一項非常重要的基礎(chǔ)性工作。
漢語詞性標注同樣面臨許多棘手的問題,其主要的難點可以歸納為以下三個方面:
(1) 漢語是一種缺乏詞形態(tài)變化的語言,詞的類別不能像印歐語言那樣,直接從詞的形態(tài)變化來判別;
(2) 常用詞兼類現(xiàn)象嚴重,越是常用的詞,不同的用法越多,盡管兼類現(xiàn)象僅僅占漢語詞匯很小的一部分,但是由于兼類使用的程度高,兼類現(xiàn)象紛繁,覆蓋面廣,涉及漢語中大部分詞類,因而造成漢語文本中詞類歧義排除的任務(wù)量大,而且面廣,復(fù)雜多樣;
(3) 研究者主觀原因造成的困難。語言學界在詞性劃分的目的、標準等問題還存在分歧;
不同的語言有不同的詞性標注集。為了方便指明詞的詞性,可以給每個詞性編碼,可以具體參考 ICTCLAS 漢語詞性標注集 ,其中,常見的有a表示形容詞,d表示副詞,n表示名詞,p表示介詞,v表示動詞。
目前采用的詞性標注方法主要有基于統(tǒng)計模型的標注方法、基于規(guī)則的標注方法、統(tǒng)計方法與規(guī)則方法相結(jié)合的方法、基于有限狀態(tài)轉(zhuǎn)換機的標注方法和基于神經(jīng)網(wǎng)絡(luò)的詞性標注方法。
jieba分詞中提供了詞性標注功能,可以標注標注句子分詞后每個詞的詞性,詞性標注集采用北大計算所詞性標注集,屬于采用基于統(tǒng)計模型的標注方法,下面將通過實例講解介紹如何使用jieba分詞的詞性標注接口、以及通過源碼講解其實現(xiàn)的原理。
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26