2

カスタマーサポートの感情分析に単純ベイズ分類器を使用しています。しかし残念ながら、私はカスタマーサポートドメインに巨大な注釈付きデータセットを持っていません。しかし、同じドメインに少量の注釈付きデータがあります(約100個の正と100個の負)。アマゾンの商品レビューデータセットもあります。

とにかく、mahoutを使用して加重単純ベイズ分類器を実装して、カスタマーサポートデータの小さなセットとアマゾン製品レビューデータに小さな重みを与えることができますか?上記の重み付けされたデータセットのトレーニングにより、精度が大幅に向上すると思います。親切に同じことで私を助けてください。

4

1 に答える 1

1

非常に単純なアプローチの 1 つは、オーバーサンプリングです。つまり、トレーニング データでカスタマー サポートの例を複数回繰り返すだけです。

同じ問題ではありませんが、クラスの不均衡に使用されるアプローチを調べることで、さらにいくつかのアイデアが得られるかもしれません。特に、オーバーサンプリング (前述のとおり) とアンダーサンプリングです。

于 2011-12-28T07:11:11.890 に答える