【NLP】Python NLTK獲取文本語(yǔ)料和詞匯資源

發(fā)布時(shí)間：2017年02月13日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

摘要：NLTK是由賓夕法尼亞大學(xué)計(jì)算機(jī)和信息科學(xué)使用python語(yǔ)言實(shí)現(xiàn)的一種自然語(yǔ)言工具包，其收集的大量公開(kāi)數(shù)據(jù)集、模型上提供了全面、易用的接口，涵蓋了分詞、詞性標(biāo)注(Part-Of-Speech tag, POS-tag)、命名實(shí)體識(shí)別(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各項(xiàng) NLP 領(lǐng)域的功能。本文主要介紹NLTK（Natural language Toolkit）的幾種語(yǔ)料庫(kù)，以及內(nèi)置模塊下函數(shù)的基本操作，諸如雙連詞、停用詞、詞頻統(tǒng)計(jì)、構(gòu)造自己的語(yǔ)料庫(kù)等等，這些都是非常實(shí)用的。主要還是基礎(chǔ)知識(shí)，關(guān)于python方面知識(shí)，可以參看本人的【Python五篇慢慢彈】系列文章（本文原創(chuàng)編著，轉(zhuǎn)載注明出處:Python NLTK獲取文本語(yǔ)料和詞匯資源）

分類導(dǎo)航

【NLP】Python NLTK獲取文本語(yǔ)料和詞匯資源

目錄

網(wǎng)友評(píng)論

更多精彩分享