1 簡(jiǎn)介
詞性(part-of-speech)是詞匯基本的語(yǔ)法范疇,通常也稱為詞類,主要用來(lái)描述一個(gè)詞在上下文的作用。例如,描述一個(gè)概念的詞就是名詞,在下文引用這個(gè)名詞的詞就是代詞。有的詞性經(jīng)常會(huì)出現(xiàn)一些新的詞,例如名詞,這樣的詞性叫做開(kāi)放式詞性。另外一些詞性中的詞比較固定,例如代詞,這樣的詞性叫做封閉式詞性。因?yàn)榇嬖谝粋€(gè)詞對(duì)應(yīng)多個(gè)詞性的現(xiàn)象,所以給詞準(zhǔn)確地標(biāo)注詞性并不是很容易。例如,“改革”在“中國(guó)開(kāi)始對(duì)計(jì)劃經(jīng)濟(jì)體制進(jìn)行改革”這句話中是一個(gè)動(dòng)詞,但是在“醫(yī)藥衛(wèi)生改革中的經(jīng)濟(jì)問(wèn)題”這個(gè)句子中是一個(gè)名詞。把這個(gè)問(wèn)題抽象出來(lái),就是已知單詞序列,給每個(gè)單詞標(biāo)注詞性。詞性標(biāo)注是自然語(yǔ)言處理中一項(xiàng)非常重要的基礎(chǔ)性工作。
漢語(yǔ)詞性標(biāo)注同樣面臨許多棘手的問(wèn)題,其主要的難點(diǎn)可以歸納為以下三個(gè)方面:
(1) 漢語(yǔ)是一種缺乏詞形態(tài)變化的語(yǔ)言,詞的類別不能像印歐語(yǔ)言那樣,直接從詞的形態(tài)變化來(lái)判別;
(2) 常用詞兼類現(xiàn)象嚴(yán)重,越是常用的詞,不同的用法越多,盡管兼類現(xiàn)象僅僅占漢語(yǔ)詞匯很小的一部分,但是由于兼類使用的程度高,兼類現(xiàn)象紛繁,覆蓋面廣,涉及漢語(yǔ)中大部分詞類,因而造成漢語(yǔ)文本中詞類歧義排除的任務(wù)量大,而且面廣,復(fù)雜多樣;
(3) 研究者主觀原因造成的困難。語(yǔ)言學(xué)界在詞性劃分的目的、標(biāo)準(zhǔn)等問(wèn)題還存在分歧;
不同的語(yǔ)言有不同的詞性標(biāo)注集。為了方便指明詞的詞性,可以給每個(gè)詞性編碼,可以具體參考 ICTCLAS 漢語(yǔ)詞性標(biāo)注集 ,其中,常見(jiàn)的有a表示形容詞,d表示副詞,n表示名詞,p表示介詞,v表示動(dòng)詞。
目前采用的詞性標(biāo)注方法主要有基于統(tǒng)計(jì)模型的標(biāo)注方法、基于規(guī)則的標(biāo)注方法、統(tǒng)計(jì)方法與規(guī)則方法相結(jié)合的方法、基于有限狀態(tài)轉(zhuǎn)換機(jī)的標(biāo)注方法和基于神經(jīng)網(wǎng)絡(luò)的詞性標(biāo)注方法。
jieba分詞中提供了詞性標(biāo)注功能,可以標(biāo)注標(biāo)注句子分詞后每個(gè)詞的詞性,詞性標(biāo)注集采用北大計(jì)算所詞性標(biāo)注集,屬于采用基于統(tǒng)計(jì)模型的標(biāo)注方法,下面將通過(guò)實(shí)例講解介紹如何使用jieba分詞的詞性標(biāo)注接口、以及通過(guò)源碼講解其實(shí)現(xiàn)的原理。