machine-learning - ApacheMahoutの加重単純ベイズ分類器

Question

カスタマーサポートの感情分析に単純ベイズ分類器を使用しています。しかし残念ながら、私はカスタマーサポートドメインに巨大な注釈付きデータセットを持っていません。しかし、同じドメインに少量の注釈付きデータがあります（約100個の正と100個の負）。アマゾンの商品レビューデータセットもあります。

とにかく、mahoutを使用して加重単純ベイズ分類器を実装して、カスタマーサポートデータの小さなセットとアマゾン製品レビューデータに小さな重みを与えることができますか？上記の重み付けされたデータセットのトレーニングにより、精度が大幅に向上すると思います。親切に同じことで私を助けてください。

score 1 · Accepted Answer

非常に単純なアプローチの 1 つは、オーバーサンプリングです。つまり、トレーニングデータでカスタマーサポートの例を複数回繰り返すだけです。

同じ問題ではありませんが、クラスの不均衡に使用されるアプローチを調べることで、さらにいくつかのアイデアが得られるかもしれません。特に、オーバーサンプリング (前述のとおり) とアンダーサンプリングです。

1 に答える 1