2

工学部のプロジェクトの一環として、Natural Language Toolkit (NLTK) の使用を開始しました。入力段落テキストを読む方法を教えてください。

1) テキストの構成要素に分解します。つまり、特定の段落内の文の数、単語の数、文字の数、多音節または複雑な単語の数に分解します。

2)上記の決定された値も出力します。

4

2 に答える 2

0

NLTKグーグルグループの議論から:

import curses 
from curses.ascii import isdigit 
import nltk 
from nltk.corpus import cmudict

d = cmudict.dict() 

def nsyl(word): 
  return [len(list(y for y in x if isdigit(y[-1]))) for x in d[word.lower()]] 

これにより、各単語の音節数を取得できるはずです。お役に立てれば。

于 2012-05-20T16:51:07.137 に答える
0

入力段落はどこから来たのですか? ファイル?コンソール?これは、NLTK よりも Python の問題です。

残りについては、nltk.tokenize モジュールと nltk.probability.FreqDist を見てください。

于 2011-02-15T21:25:27.110 に答える