0

さまざまなクラスのインスタンスを含むトレーニング セットがあり、それが非常に不均衡だった場合。バランスをとるためにどのような戦略を使用しますか?

実世界の母集団に関する情報: 7 つのクラスのうち、最小のクラスが 5% を占めます。

トレーニング セットに関する情報: 頻度は母集団の頻度とは大きく異なります。

次の 2 つのオプションがあります。

  • それを母集団クラスの度数にバイアスします。
  • 一様分布にバイアスします。

バイアスを使用して、SMOTE や Cost-Sensitive Classification のようなものを意図しています。

どの戦略に従うべきか不安です。他の提案もお待ちしています。戦略の成功をどのように評価しますか?

4

1 に答える 1

0

おっしゃるとおり、トレーニングには 2 つのオプションがあります。データセットのバランスをとる (非常に大量のデータおよび/または少数の機能がある場合に機能するため、一部のサンプルを破棄しても学習に影響しません)、頻度に応じて、異なるクラスに異なる重みを使用します。後者は通常、簡単に実行できますが、選択したメソッドとライブラリによって異なります。

分類子をトレーニングしたら (トレーニング セットにいくつかの事前確率を使用して)、事前確率が変化した場合 (トレーニングと母集団の頻度が異なる場合) に予測確率を簡単に更新できます。以前の情報を置き換える方法の優れた概要があり、短い投稿で説明するよりもよく説明されています。確率の組み合わせ、セクション 3 (事前情報の置き換え) を参照してください。

于 2013-05-17T08:20:11.337 に答える