0

Python NLTK bookを読んでいます。次のコマンドを実行して、Moby Dick の単語の頻度分布を作成しました。fdist=FreqDist(text1)ここで、text1 は Moby Dick の NLTK Text オブジェクト、つまり小説の単語のリストです。これで度数分布オブジェクトができました:

>>> fdist1
<FreqDist with 260819 outcomes>

それでも、リスト内のそれらの多くは、大文字と小文字の両方の単語「a」のように、大文字と小文字が異なる同じ単語です。

>>> fdist1['a']
4569
>>> fdist1['A']
167

これら 2 つの単語 (および個別にリストされている他のすべての単語) をどのように組み合わせることができますか?

4

1 に答える 1

0

新しい dict を作成し、FreqDict を反復処理して、キーを小文字にすることができます。そのようです -

lc_dict = defaultdict(int)
for (key, value) in fdist1.items():
    lc_dict[key.lower()] = lc_dict[key.lower()] + value
于 2013-02-09T20:21:28.007 に答える