1

カスタマー サポート ドメインでセンチメント分析を実行するために apache mahout を使用しています。適切なトレーニング データ セットを取得できないため、独自に作成しました。今では、肯定的な感情に対して 100 通、否定的な感情に対して 100 通のサポート メールがあります。

しかし、問題は、精度を達成できないことです。55% 前後にとどまり、哀れです。約 70% 前後の精度で十分です。また、Apache mahout の無料の単純なベイズ分類器を使用していることにも注意してください。

正確に言えば、データセットのサイズが小さいことが精度を低下させているのでしょうか? そうでない場合、どこを微調整すればよいですか?

4

1 に答える 1

4

今後この問題を検討している方のために、分類器の精度を 50% から約 78% に調整した方法を共有します。

  • トレーニングおよび入力データに対してステミングを実行する
  • トレーニング データと入力データに対してストップ ワードの削除を実行する
  • トレーニング データと入力データを小文字 (または大文字) に変換する
  • トレーニング データの各カテゴリにほぼ同量のサンプルがある
  • ドメインに応じて ngram レベルを微調整します。

これにより、精度が大幅に向上するはずです。

于 2012-02-17T09:54:22.207 に答える