Python NLTK bookを読んでいます。次のコマンドを実行して、Moby Dick の単語の頻度分布を作成しました。fdist=FreqDist(text1)
ここで、text1 は Moby Dick の NLTK Text オブジェクト、つまり小説の単語のリストです。これで度数分布オブジェクトができました:
>>> fdist1
<FreqDist with 260819 outcomes>
それでも、リスト内のそれらの多くは、大文字と小文字の両方の単語「a」のように、大文字と小文字が異なる同じ単語です。
>>> fdist1['a']
4569
>>> fdist1['A']
167
これら 2 つの単語 (および個別にリストされている他のすべての単語) をどのように組み合わせることができますか?