mahout - ベイジアン分類器のトレーニングデータサイズ

Question

カスタマーサポートドメインでセンチメント分析を実行するために apache mahout を使用しています。適切なトレーニングデータセットを取得できないため、独自に作成しました。今では、肯定的な感情に対して 100 通、否定的な感情に対して 100 通のサポートメールがあります。

しかし、問題は、精度を達成できないことです。55% 前後にとどまり、哀れです。約 70% 前後の精度で十分です。また、Apache mahout の無料の単純なベイズ分類器を使用していることにも注意してください。

正確に言えば、データセットのサイズが小さいことが精度を低下させているのでしょうか? そうでない場合、どこを微調整すればよいですか？

score 4 · Accepted Answer

今後この問題を検討している方のために、分類器の精度を 50% から約 78% に調整した方法を共有します。

これにより、精度が大幅に向上するはずです。

mahout - ベイジアン分類器のトレーニング データ サイズ