シンプルなナイーブ ベイズ アルゴリズムを使用して mahout でドキュメント分類子を作成しています。現在、私が持っているデータ (ドキュメント) の 98% はクラス A であり、クラス B はわずか 2% です。私の質問は、クラス A ドキュメントとクラス B ドキュメントの割合に大きなギャップがあるため、分類器はまだ正確にトレーニングできますか?
私が考えているのは、大量のクラス A 文書を無視し、私が持っているデータセットを「操作」して、文書の構成に大きなギャップが生じないようにすることです。したがって、最終的に得られるデータセットは、クラス B の 30% とクラス A の 70% で構成されます。