12

曲線下面積 (AUC) を使用して分類器を評価する受信者動作特性 (ROC) 曲線を作成しています (詳細は記事の最後にあります)。残念ながら、曲線上の点はしばしば対角線より下になります。たとえば、次のようなグラフになります (青色の ROC 曲線、灰色のアイデンティティ ライン)。

ROC の修正

3 番目の点 (0.3, 0.2) は、対角線の下になります。AUC を計算するには、このような難しい点を修正したいと考えています。

これを行う標準的な方法は、曲線上の点 (fp, tp) を点 (1-fp, 1-tp) に置き換えることです。これは、分類子の予測を交換することと同じです。たとえば、この例では、厄介な点 A (0.3, 0.2) が点 B (0.7, 0.8) になり、上のリンクの画像で赤で示しています。

これは、この問題を扱う際の私の参考文献の範囲です。問題は、新しいポイントを新しい ROC に追加する (そして悪いポイントを削除する) と、次のように非単調 ROC 曲線になることです (赤が新しい ROC 曲線で、青い点線が古い曲線です)。

新しいROC

そして、ここで私は立ち往生しています。この ROC 曲線を修正するにはどうすればよいですか?

この奇妙な動作を考慮して、何らかの方法で変換されたデータまたはクラスで分類器を再実行する必要がありますか? 関連する論文を調べましたが、間違っていなければ、これとは少し異なる問題に取り組んでいるようです。

いくつかの詳細については、元のしきい値、fp 値、および tp 値 (および各データ ポイントの元の分類子の出力、確率推定値である 0 から 1 までの単なるスカラーである出力) がまだすべて残っています。クラスのメンバーシップの)。perfcurve 関数から始めて、Matlab でこれを行っています。


4

2 に答える 2

4

上記の記事を書いた人々からのこれに関する非常に役立つ電子メールと上記の議論に基づくと、正しい答えは次のように思われます: まったく新しい曲線を作成しない限り、ROC 曲線の個々の点を「修正」しようとしないでください。分類器を作成し、テスト データを除外して、それが適切かどうかを確認してください。

アイデンティティラインより下のポイントを獲得することは、簡単に起こることです。これは、最適な理論上の最小値が 50% であっても、45% の正解率を示す個々の分類子を取得するようなものです。これは、実際のデータ セットのばらつきの一部に過ぎず、偶然に基づく予想より大幅に小さい場合を除き、あまり心配する必要はありません。たとえば、分類器が 20% 正解した場合、明らかに何かが間違っているので、特定の理由を調べて分類器を修正することができます。

于 2012-12-10T13:56:38.590 に答える
3

はい、ポイントを(1-fp、1-tp)に交換することは理論的には効果的ですが、サンプルサイズを増やすことも安全です。

システムには非単調な応答特性があるようです。ROCのルールを曲げすぎないように注意してください。曲げすぎると、AUCの堅牢性に影響を与えます。

そうは言っても、パレートフロンティアカーブ(パレートフロント)を使用してみることができます。それが「凹みの修復」の要件に適合する場合は、基本的に、ROC曲線が単調になるようにポイントを並べ替えます。

于 2012-12-09T04:21:58.687 に答える