文本挖掘的分詞原理

發(fā)布時(shí)間：2017年07月07日作者：IT網(wǎng)絡(luò)文摘

在做文本挖掘的時(shí)候，首先要做的預(yù)處理就是分詞。英文單詞天然有空格隔開(kāi)容易按照空格分詞，但是也有時(shí)候需要把多個(gè)單詞做為一個(gè)分詞，比如一些名詞如“New York”，需要做為一個(gè)詞看待。而中文由于沒(méi)有空格，分詞就是一個(gè)需要專(zhuān)門(mén)去解決的問(wèn)題了。無(wú)論是英文還是中文，分詞的原理都是類(lèi)似的，本文就對(duì)文本挖掘時(shí)的分詞原理做一個(gè)總結(jié)。

1. 分詞的基本原理

　　　　現(xiàn)代分詞都是基于統(tǒng)計(jì)的分詞，而統(tǒng)計(jì)的樣本內(nèi)容來(lái)自于一些標(biāo)準(zhǔn)的語(yǔ)料庫(kù)。假如有一個(gè)句子：“小明來(lái)到荔灣區(qū)”，我們期望語(yǔ)料庫(kù)統(tǒng)計(jì)后分詞的結(jié)果是："小明/來(lái)到/荔灣/區(qū)"，而不是“小明/來(lái)到/荔/灣區(qū)”。那么如何做到這一點(diǎn)呢？

　　　　從統(tǒng)計(jì)的角度，我們期望"小明/來(lái)到/荔灣/區(qū)"這個(gè)分詞后句子出現(xiàn)的概率要比“小明/來(lái)到/荔/灣區(qū)”大。如果用數(shù)學(xué)的語(yǔ)言來(lái)說(shuō)說(shuō)，如果有一個(gè)句子S

分類(lèi)導(dǎo)航

文本挖掘的分詞原理

1. 分詞的基本原理

網(wǎng)友評(píng)論

更多精彩分享