5

陽性クラスに属する非常に小さなデータと、陰性クラスの大量のデータがあります。教授によると。Andrew Ng (異常検出 vs 教師あり学習)、非常に歪んだデータのため、教師あり学習の代わりに異常検出を使用する必要があります。

間違っている場合は訂正してください。ただし、どちらの手法も同じように見えます。つまり、(教師あり) 異常検出と標準の教師あり学習の両方で、正常サンプルと異常サンプルの両方でデータをトレーニングし、未知のデータでテストします。違いはありますか?

同じサイズの両方の型データを取得するには、負のクラスのアンダーサンプリングまたは正のクラスのオーバーサンプリングを実行する必要がありますか? 全体の精度に影響はありますか?

4

2 に答える 2

3

異常検出では、十分にサポートされているデータの部分からモデル パラメーターを決定します (Andrew が説明しているように)。ネガティブ クラスには多くのインスタンスがあるため、これらのデータを「学習」に使用します。カーネル密度推定または GMM は、通常使用されるアプローチの例です。したがって、「正常性」のモデルが学習され、しきい値処理を使用して、派生モデルに関して異常と見なされるインスタンスを検出できます。このアプローチと従来の教師あり学習の違いは、トレーニングにデータの一部 (この場合は負のクラス) のみを使用しているという事実にあります。ポジティブなインスタンスは、トレーニング後に異常であると識別されることが予想されます。

2番目の質問については、ネガティブクラスをアンダーサンプリングすると情報が失われますが、ポジティブクラスをオーバーサンプリングしても情報は追加されません。その道をたどることは望ましいことではないと思います。

于 2014-04-27T21:59:04.007 に答える