バイナリテキスト分類にscikit-learn Multinomial Naive Bayes分類器を使用しています(分類器は、ドキュメントがカテゴリXに属しているかどうかを教えてくれます)。バランスの取れたデータセットを使用してモデルをトレーニングし、バランスの取れたテスト セットを使用してテストしましたが、結果は非常に有望です。
この分類子は、リアルタイムで実行し、ランダムに投げられたドキュメントを常に分析する必要があります。
ただし、本番環境で分類器を実行すると、誤検知の数が非常に多くなるため、精度が非常に低くなります。理由は簡単です。分類器がリアルタイム シナリオで遭遇するネガティブ サンプルはもっと多くあり (約 90% の確率)、これは私がテストとトレーニングに使用した理想的なバランスのとれたデータセットに対応していません。
トレーニング中にこのリアルタイムのケースをシミュレートする方法はありますか、または使用できるトリックがありますか (ドキュメントが分類器に適しているかどうかを確認するための前処理を含む)?
リアルタイムの場合と同じ比率で不均衡なデータセットを使用して分類器をトレーニングすることを計画していましたが、単純ベイズが負のクラスに偏り、正のクラスでの再現率が失われるのではないかと心配しています。
アドバイスをいただければ幸いです。