1樓:匿名使用者
有很多好用的中文處理包:
jieba:可以用來做分詞,詞性標註,textrankhanlp:分詞,命名實體識別,依存句法分析,還有fudannlp,nlpir
個人覺得都比nltk好用~
如何用 python 中的 nltk 對中文進行分析和處理
2樓:匿名使用者
一、nltk進行分詞
用到的函式:
nltk.sent_tokenize(text) #對文字按照句子進行分割
nltk.word_tokenize(sent) #對句子進行分詞
二、nltk進行詞性標註
用到的函式:
nltk.pos_tag(tokens)#tokens是句子分詞後的結果,同樣是句子級的標註
三、nltk進行命名實體識別(ner)
用到的函式:
nltk.ne_chunk(tags)#tags是句子詞性標註後的結果,同樣是句子級
上例中,有兩個命名實體,乙個是xi,這個應該是per,被錯誤識別為gpe了; 另乙個事china,被正確識別為gpe。
四、句法分析
nltk沒有好的parser,推薦使用stanfordparser
但是nltk有很好的樹類,該類用list實現
可以利用stanfordparser的輸出構建一棵python的句法樹
3樓:匿名使用者
買本書看 ......
4樓:令梅函靖巧
有很多好用的中文處理包:
jieba:可以用來做分詞,詞性標註,textrankhanlp:分詞,命名實體識別,依存句法分析,還有fudannlp,nlpir
個人覺得都比nltk好用~
如何用 python 中的 nltk 對中文進行分析和處理
5樓:育知同創教育
一、nltk進行分
詞用到的函式:
nltk.sent_tokenize(text) #對文字按照句子進行分割
nltk.word_tokenize(sent) #對句子進行分詞
二、版nltk進行詞性標註
用到的函權數:
nltk.pos_tag(tokens)#tokens是句子分詞後的結果,同樣是句子級的標註
三、nltk進行命名實體識別(ner)
用到的函式:
nltk.ne_chunk(tags)#tags是句子詞性標註後的結果,同樣是句子級
上例中,有兩個命名實體,乙個是xi,這個應該是per,被錯誤識別為gpe了; 另乙個事china,被正確識別為gpe。
四、句法分析
nltk沒有好的parser,推薦使用stanfordparser
但是nltk有很好的樹類,該類用list實現
可以利用stanfordparser的輸出構建一棵python的句法樹
如何用python做情感分析,如何用Python做情感分析
這句話應該不是說你feature太多了,而是說for迴圈中,使用了兩個變數去unpack featuresets太多了。所以應該是你的資料結構有問題,featuresets可能不是適合兩個變數來解包的資料結構,或者中文編碼有問題。如何用python做情感分析 可以使用snownlp包,也可以用nlt...
如何用Python寫web框架,如何用Python寫乙個web框架
自己寫就太費事了,不如基於ocr的已有專案去呼叫去封裝吧。python呼叫tesseract的demo,可以去看看。寫乙個python框架難嗎 如何用python做web開發 web開發 html 超文字標記語言 是網頁的核心,學好html是成為web開發人員的基本條件。html很容易學習的,但也很...
如何用anaconda寫python
使用anaconda更新python版本的方法和詳細的操作步驟如下 1 首先,直接開啟計算機的開始選單,然後選擇 anaconda prompt 進入,如下圖所示。2 其次,下一步如果沒有問題,請輸入圖中所示的 進行確認,如下圖所示。3 接著,此時需要通過 file 來點選 settings 跳轉,...