カスタマー サポート ドメインでセンチメント分析を実行するために apache mahout を使用しています。適切なトレーニング データ セットを取得できないため、独自に作成しました。今では、肯定的な感情に対して 100 通、否定的な感情に対して 100 通のサポート メールがあります。
しかし、問題は、精度を達成できないことです。55% 前後にとどまり、哀れです。約 70% 前後の精度で十分です。また、Apache mahout の無料の単純なベイズ分類器を使用していることにも注意してください。
正確に言えば、データセットのサイズが小さいことが精度を低下させているのでしょうか? そうでない場合、どこを微調整すればよいですか?