machine-learning - 大規模なマルチクラス NLP 分類の不均衡なデータとサンプルサイズ

翻译自：https://stackoverflow.com/questions/31014235 2015-06-23T21:56:45.543

1252 次

私は MaxEnt を使用してテキストを 20 の異なるクラスのいずれかに分類することを望んでいる NLP プロジェクトに取り組んでいます。手書きの管理データから、トレーニング、検証、およびテストセットを手作業で作成しています。

トレーニングセットのクラスに必要なサンプルサイズと、検証/テストセットの適切なサイズを決定したいと考えています。

現実の世界では、20 の結果は不均衡です。しかし、モデルの構築に役立つバランスの取れたトレーニングセットを作成することを検討しています。

だから私は2つの質問があります：

トレーニングセットの各カテゴリの適切なサンプルサイズを決定するにはどうすればよいですか?

実世界のデータに直面した場合にモデルが遭遇する可能性のある条件を反映するために、検証/テストセットを不均衡にする必要がありますか?

machine-learning - 大規模なマルチクラス NLP 分類の不均衡なデータとサンプル サイズ