NLTK の本には単語数の例がいくつかありますが、実際には単語数ではなくトークン数です。たとえば、Chapter 1, Counting Vocabulary では、次のように語数を計算すると述べています。
text = nltk.Text(tokens)
len(text)
ただし、そうではありません。単語と句読点の数が表示されます。どうすれば実際の単語数を取得できますか (句読点を無視します)?
同様に、単語の平均文字数を取得するにはどうすればよいでしょうか? 明らかな答えは次のとおりです。
word_average_length =(len(string_of_text)/len(text))
ただし、次の理由により、これはオフになります。
- len(string_of_text) は、スペースを含む文字数です。
- len(text) はトークン カウントであり、スペースは除外されますが、単語ではない句読点が含まれます。
ここで何か不足していますか?これは非常に一般的な NLP タスクに違いありません...