カスタムWebTextクラスのインスタンスである一連のテキストがあります。各テキストは、評価(-10〜 + 10)と単語数(nltk.FreqDist)が関連付けられたオブジェクトです。
>>trainingTexts = [WebText('train1.txt'), WebText('train2.txt'), WebText('train3.txt'), WebText('train4.txt')]
>>trainingTexts[1].rating
10
>>trainingTexts[1].freq_dist
<FreqDist: 'the': 60, ',': 49, 'to': 38, 'is': 34,...>
ポジティブ評価されたテキストで排他的に使用されるすべての単語を含む2つのリスト(または辞書)(trainingText[]。rating>0)と、ネガティブテキストで排他的に使用されるすべての単語を含む別のリスト(trainingText[]。rating<)を取得するにはどうすればよいですか。 0)。そして、各リストにすべてのポジティブまたはネガティブテキストの合計単語数が含まれるようにして、次のようにします。
>>only_positive_words
[('sky', 10), ('good', 9), ('great', 2)...]
>>only_negative_words
[('earth', 10), ('ski', 9), ('food', 2)...]
セットには一意のインスタンスが含まれているため、セットの使用を検討しましたが、nltk.FreqDistを使用してこれを行う方法がわかりません。さらに、セットは単語の頻度で並べ替えられません。何か案は?