1 簡介

詞性(part-of-speech)是詞匯基本的語法范疇,通常也稱為詞類,主要用來描述一個詞在上下文的作用。例如,描述一個概念的詞就是名詞,在下文引用這個名詞的詞就是代詞。有的詞性經(jīng)常會出現(xiàn)一些新的詞,例如名詞,這樣的詞性叫做開放式詞性。另外一些詞性中的詞比較固定,例如代詞,這樣的詞性叫做封閉式詞性。因為存在一個詞對應(yīng)多個詞性的現(xiàn)象,所以給詞準確地標注詞性并不是很容易。例如,“改革”在“中國開始對計劃經(jīng)濟體制進行改革”這句話中是一個動詞,但是在“醫(yī)藥衛(wèi)生改革中的經(jīng)濟問題”這個句子中是一個名詞。把這個問題抽象出來,就是已知單詞序列,給每個單詞標注詞性。詞性標注是自然語言處理中一項非常重要的基礎(chǔ)性工作。

漢語詞性標注同樣面臨許多棘手的問題,其主要的難點可以歸納為以下三個方面:

  • (1) 漢語是一種缺乏詞形態(tài)變化的語言,詞的類別不能像印歐語言那樣,直接從詞的形態(tài)變化來判別;

  • (2) 常用詞兼類現(xiàn)象嚴重,越是常用的詞,不同的用法越多,盡管兼類現(xiàn)象僅僅占漢語詞匯很小的一部分,但是由于兼類使用的程度高,兼類現(xiàn)象紛繁,覆蓋面廣,涉及漢語中大部分詞類,因而造成漢語文本中詞類歧義排除的任務(wù)量大,而且面廣,復(fù)雜多樣;

  • (3) 研究者主觀原因造成的困難。語言學界在詞性劃分的目的、標準等問題還存在分歧;

不同的語言有不同的詞性標注集。為了方便指明詞的詞性,可以給每個詞性編碼,可以具體參考 ICTCLAS 漢語詞性標注集 ,其中,常見的有a表示形容詞,d表示副詞,n表示名詞,p表示介詞,v表示動詞。

目前采用的詞性標注方法主要有基于統(tǒng)計模型的標注方法、基于規(guī)則的標注方法、統(tǒng)計方法與規(guī)則方法相結(jié)合的方法、基于有限狀態(tài)轉(zhuǎn)換機的標注方法和基于神經(jīng)網(wǎng)絡(luò)的詞性標注方法。

jieba分詞中提供了詞性標注功能,可以標注標注句子分詞后每個詞的詞性,詞性標注集采用北大計算所詞性標注集,屬于采用基于統(tǒng)計模型的標注方法,下面將通過實例講解介紹如何使用jieba分詞的詞性標注接口、以及通過源碼講解其實現(xiàn)的原理。

延伸閱讀

學習是年輕人改變自己的最好方式-Java培訓,做最負責任的教育,學習改變命運,軟件學習,再就業(yè),大學生如何就業(yè),幫大學生找到好工作,lphotoshop培訓,電腦培訓,電腦維修培訓,移動軟件開發(fā)培訓,網(wǎng)站設(shè)計培訓,網(wǎng)站建設(shè)培訓學習是年輕人改變自己的最好方式