Weka の Naive Bayes を使用してテキスト分類を行います。文章には「ポジティブ」と「ネガティブ」の 2 つのクラスがあります。学習セットを作成するために、ポジティブな意味を持つ約 207 の文とネガティブな意味を持つ約 189 の文を収集しました。
「嫌い」という言葉のような強い否定的な意味を持つ文を含むテスト セットで Naive Bayes を実行したところ、結果の精度はかなり高く、約 88% でした。しかし、「愛」という言葉のような肯定的な意味を持つ文をテスト セットとして使用すると、精度はさらに悪く、約 56% でした。
この違いは、おそらく私のトレーニング セット、特にその「ポジティブ」文に関係していると思います。
この違いを説明できる理由を思いつきますか? それとも、問題の始まりを見つけるのに役立つ方法でしょうか?
お時間をいただき、ありがとうございました。
ナンティア