トレーニングデータセットで、クラスラベルの大部分が 1 (他のクラスラベルは 0) である入力テストデータセットを処理しClass Imbalance Problem
て実行する必要があります。binary-classification
たとえば、次はトレーニング データの一部です。
93.65034,94.50283,94.6677,94.20174,94.93986,95.21071,1
94.13783,94.61797,94.50526,95.66091,95.99478,95.12608,1
94.0238,93.95445,94.77115,94.65469,95.08566,94.97906,1
94.36343,94.32839,95.33167,95.24738,94.57213,95.05634,1
94.5774,93.92291,94.96261,95.40926,95.97659,95.17691,0
93.76617,94.27253,94.38002,94.28448,94.19957,94.98924,0
最後の列はclass-label
-0
または1
です。実際のデータセットは10:1
、クラスの比率によって非常に歪んでいます。つまり、約 700 のサンプルの が 0class label
であるのに対し、残りの 6800 のサンプルは が 1class label
です。
上記は、指定されたデータセット内のすべてのサンプルのほんの一部ですが、実際のデータセットには、ほぼすべての90%
サンプルが非常によく似ています。class-label
1
class-label
0
この種のデータセットを処理するのに最適な分類器はどれですか?
パラメータlogistic-regression
をsvm
_ class-weight
_ "balanced"
_