摘要:NLTK是由賓夕法尼亞大學計算機和信息科學使用python語言實現(xiàn)的一種自然語言工具包,其收集的大量公開數(shù)據(jù)集、模型上提供了全面、易用的接口,涵蓋了分詞、詞性標注(Part-Of-Speech tag, POS-tag)、命名實體識別(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各項 NLP 領域的功能。本文主要介紹NLTK(Natural language Toolkit)的幾種語料庫,以及內(nèi)置模塊下函數(shù)的基本操作,諸如雙連詞、停用詞、詞頻統(tǒng)計、構造自己的語料庫等等,這些都是非常實用的。主要還是基礎知識,關于python方面知識,可以參看本人的【Python五篇慢慢彈】系列文章(本文原創(chuàng)編著,轉載注明出處:Python NLTK獲取文本語料和詞匯資源)
目錄
【Python NLP】干貨!詳述Python NLTK下如何使用stanford NLP工具包(1)