machine-learning - 二項分類: 私が最も気にかけているクラスがデータのごく一部にすぎない場合はどうなりますか?

Question

二項分類問題に取り組んでいます。クラス A と B としましょう。しかし問題は、A と B のクラス事前分布が 90% と 10% のようになることです。したがって、私が試したほとんどの分類アルゴリズムは、ほとんどのケースをクラス A に分類する傾向がありますが、0/1 の精度は高いですが、クラス B の精度と再現率はひどいものです。どうすればこれを変更できますか?

score 5 · Accepted Answer

2 つの基本的なアプローチがあります。

小さいクラスをオーバーサンプリングします (比率がより等しくなるようにベクトルを複製します。これらのデータに小さなノイズを適用して、より「価値のある」データにすることもできます)
モデルでサポートされているクラス重み付けスキームを使用する

特に、サポートベクターマシンの正確な問題を見てください。

そしてもう1つ-このような不均衡に対処するためにいくつかの評価尺度が構築されています。特に、 MCC(Mathews相関係数)を使用して、非比例データのモデル品質を評価できます。

machine-learning - 二項分類: 私が最も気にかけているクラスがデータのごく一部にすぎない場合はどうなりますか?

2 に答える 2

Related

Reference