4

シンプルなナイーブ ベイズ アルゴリズムを使用して mahout でドキュメント分類子を作成しています。現在、私が持っているデータ (ドキュメント) の 98% はクラス A であり、クラス B はわずか 2% です。私の質問は、クラス A ドキュメントとクラス B ドキュメントの割合に大きなギャップがあるため、分類器はまだ正確にトレーニングできますか?

私が考えているのは、大量のクラス A 文書を無視し、私が持っているデータセットを「操作」して、文書の構成に大きなギャップが生じないようにすることです。したがって、最終的に得られるデータセットは、クラス B の 30% とクラス A の 70% で構成されます。

4

2 に答える 2

1

インスタンスを減らすために、必ずしもデータセット A をサンプリングする必要はありません。マジョリティ アンダーサンプリング (まさにあなたが行った方法)、マイノリティ オーバーサンプリング、SMOTE など、不均衡なデータセットからの効率的な学習にはいくつかの方法があります。これらの方法の経験的な比較は次のとおりです。 /論文/62.pdf

または、分類子のカスタム コスト マトリックスを定義することもできます。つまり、B=Positive クラスと仮定すると、cost(False Positive) < cost(False Negative) を定義できます。この場合、分類器の出力は正のクラスに偏ります。ここに非常に役立つチュートリアルがあります: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.164.4418&rep=rep1&type=pdf

于 2013-09-13T20:05:06.360 に答える