さまざまなクラスのインスタンスを含むトレーニング セットがあり、それが非常に不均衡だった場合。バランスをとるためにどのような戦略を使用しますか?
実世界の母集団に関する情報: 7 つのクラスのうち、最小のクラスが 5% を占めます。
トレーニング セットに関する情報: 頻度は母集団の頻度とは大きく異なります。
次の 2 つのオプションがあります。
- それを母集団クラスの度数にバイアスします。
- 一様分布にバイアスします。
バイアスを使用して、SMOTE や Cost-Sensitive Classification のようなものを意図しています。
どの戦略に従うべきか不安です。他の提案もお待ちしています。戦略の成功をどのように評価しますか?