私は MaxEnt を使用してテキストを 20 の異なるクラスのいずれかに分類することを望んでいる NLP プロジェクトに取り組んでいます。手書きの管理データから、トレーニング、検証、およびテスト セットを手作業で作成しています。
トレーニング セットのクラスに必要なサンプル サイズと、検証/テスト セットの適切なサイズを決定したいと考えています。
現実の世界では、20 の結果は不均衡です。しかし、モデルの構築に役立つバランスの取れたトレーニング セットを作成することを検討しています。
だから私は2つの質問があります:
トレーニング セットの各カテゴリの適切なサンプル サイズを決定するにはどうすればよいですか?
実世界のデータに直面した場合にモデルが遭遇する可能性のある条件を反映するために、検証/テスト セットを不均衡にする必要がありますか?