machine-learning - 1 つのクラスのナイーブベイに対してのみ良好なパフォーマンス

Question

Weka の Naive Bayes を使用してテキスト分類を行います。文章には「ポジティブ」と「ネガティブ」の 2 つのクラスがあります。学習セットを作成するために、ポジティブな意味を持つ約 207 の文とネガティブな意味を持つ約 189 の文を収集しました。

「嫌い」という言葉のような強い否定的な意味を持つ文を含むテストセットで Naive Bayes を実行したところ、結果の精度はかなり高く、約 88% でした。しかし、「愛」という言葉のような肯定的な意味を持つ文をテストセットとして使用すると、精度はさらに悪く、約 56% でした。

この違いは、おそらく私のトレーニングセット、特にその「ポジティブ」文に関係していると思います。

この違いを説明できる理由を思いつきますか? それとも、問題の始まりを見つけるのに役立つ方法でしょうか?

お時間をいただき、ありがとうございました。

ナンティア

score 1 · Accepted Answer

分類子がどのように機能するかをよりよく理解するために、パラメーターを調べて、分類子が文のポジティブ/ネガティブを最も予測していると考える単語を確認できます。ポジティブケースとネガティブケースの上位予測子を印刷できますか？

例えば、

top positive predictors:
p('love'|positive) = 0.05
p('like'|positive) = 0.016
...

top negative predictors:
p('hate'|negative) = 0.25
p('dislike'|negative) = 0.17
...

score 1 · Accepted Answer

正または負のサンプルのみを含むテストセットを作成する代わりに、混合サンプルを使用してテストセットを作成します。結果として得られる混同行列をWekaで表示できます。これにより、正のサンプルと負のサンプルの両方が分類されているかどうかを確認できます。さらに、パフォーマンスのより安定した測定値を取得するために（10倍）クロス検証を使用します（これを実行したら、混同行列のクロス検証結果を使用して投稿を編集することをお勧めします。もっと）。

score 1 · Accepted Answer

否定文にはより一貫して存在する単語が含まれている可能性がありますが、肯定文には存在する単語のバリエーションが多いか、それらの単語がしばしば否定文にも存在する可能性があります。

辞書のサイズ (つまり、属性の数) やテストセットのサイズなどを知らずに具体的なアドバイスをすることは困難です。単純ベイズ分類器は、個々の単語が存在するか存在しないかの確率の積を計算するため、は、誤分類された正の例をいくつか取り、正と負の両方の分類の条件付き確率を調べて、例が誤分類されている理由を確認します。

machine-learning - 1 つのクラスのナイーブ ベイに対してのみ良好なパフォーマンス

3 に答える 3

Related

Reference

machine-learning - 1 つのクラスのナイーブベイに対してのみ良好なパフォーマンス