工学部のプロジェクトの一環として、Natural Language Toolkit (NLTK) の使用を開始しました。入力段落テキストを読む方法を教えてください。
1) テキストの構成要素に分解します。つまり、特定の段落内の文の数、単語の数、文字の数、多音節または複雑な単語の数に分解します。
と
2)上記の決定された値も出力します。
NLTKグーグルグループの議論から:
import curses
from curses.ascii import isdigit
import nltk
from nltk.corpus import cmudict
d = cmudict.dict()
def nsyl(word):
return [len(list(y for y in x if isdigit(y[-1]))) for x in d[word.lower()]]
これにより、各単語の音節数を取得できるはずです。お役に立てれば。
入力段落はどこから来たのですか? ファイル?コンソール?これは、NLTK よりも Python の問題です。
残りについては、nltk.tokenize モジュールと nltk.probability.FreqDist を見てください。