現在、2 つのクラスで分類の問題が発生しています。私がやりたいことは、与えられた候補の束から、誰がクラス 1 になる可能性が高いかを見つけることです。問題は、クラス 1 が非常にまれ (約 1%) であることです。これにより、私の予測はかなり不正確になると思います。データセットをトレーニングするために、半分のクラス 1 と半分のクラス 0 をサンプリングできますか? これで事前分布が変わるのですが、事前分布が分類結果に影響するかどうかわかりません。
4 に答える
実際、非常に不均衡なデータセットは分類に問題を引き起こす可能性があります。過半数クラス 0 にデフォルト設定することで、エラー率をすでに非常に低く抑えることができるためです。
特定の問題に対して機能する場合と機能しない場合があるいくつかの回避策があります。たとえば、2 つのクラスに等しい重みを与える (したがって、まれなクラスのインスタンスをより強く重み付けする)、まれなクラスをオーバーサンプリングする (つまり、各インスタンスを複数回学習する)、わずかなバランスなどを復元するための珍しいオブジェクトのバリエーション SMOTE など。
分類または機械学習の本を入手して、「不均衡な分類」または「不均衡な分類」のインデックスを確認する必要があります。その本が良ければ、この問題について議論します。(彼らが使用する用語を知らなかったと思います。)
ベイジアン効用理論を検討して、さまざまな種類のエラーのコストを再重み付けして、決定を支配する事前確率の問題から逃れることができます。
A を 99% の事前確率クラス、B を 1% のクラスとします。
すべてのエラーが同じコスト (負の効用) を被るというだけの場合、最適な決定アプローチは常に "A" を宣言することである可能性があります。多くの分類アルゴリズムは (暗黙的に) これを想定しています。
代わりに、実際にはインスタンスが「A」であったときに「B」を宣言するコストが、反対のエラーのコストよりもはるかに大きいと宣言すると、決定ロジックは、ある意味で、わずかな違いにより敏感になります。機能で。
この種の状況は、障害検出で頻繁に発生します。監視対象のシステムで障害が発生することはまれですが、エラー状態を示すデータが表示された場合は、アクションを実行する必要があることを確認する必要があります (たとえそれがエラーであったとしても)。データを確認するだけです)。
2 つのクラスを均等にサンプリングしても、分類アルゴリズムがトレーニング データに基づいて事前確率を計算 (および使用) しない限り、想定される事前確率は変わりません。あなたの問題は、「候補者がたくさんいる場合、クラス1になる可能性が高い人を見つける」ことだと述べました。これは、どの観測がクラス 1 に属する可能性が最も高いかを判断したいという意味で読みました。これを行うには、$p(c_1|x_i)$ を最大化する観測 $x_i$ を選択する必要があります。ベイズの定理を使用すると、これは次のようになります。
$$ p(c_1|x_i)=\frac{p(x_i|c_1)p(c_1)}{p(x_i)} $$
$p(c_1)$ は定数であるため、上記の式では無視できます。ただし、分母を計算するには、事前確率を使用する必要があります。あなたの問題は実際には分類問題というよりもターゲット検出の問題であるため、確率の低いターゲットを検出するための別のアプローチは、2 つのクラスの尤度比を取ることです。
$$ \Lambda=\frac{p(x_i|c_1)}{p(x_i|c_0)} $$
クラス 1 に属する可能性が最も高い候補を選択するには、$\Lambda$ の値が最も高い候補を選択します。2 つのクラスが多変量ガウス分布で記述されている場合、$\Lambda$ をその自然対数に置き換えると、より単純な 2 次検出器が得られます。さらに、ターゲットとバックグラウンドの共分散行列が同じであると仮定すると、線形判別式が得られます (http://en.wikipedia.org/wiki/Linear_discriminant_analysis)。
グループから正確に 1 つを選択する必要がある場合、そのグループのすべてのメンバーに対して一定であるため、クラスに対する事前分布は問題になりません。それぞれを順番に調べて、それらがクラス 1 かクラス 2 かについて独立した決定を下す必要がある場合、分類を行うために選択した方法に応じて、事前確率が決定を変更する可能性があります。レア クラスの例をできるだけ多く入手することをお勧めしますが、盲目的にトレーニングとして 50-50 分割を分類子に与えると、これがテスト時の分布であると想定するモデルに暗黙的に適合する可能性があることに注意してください。