wekaの AUC/ROC 領域 ( http://weka.wikispaces.com/Area+under+the+curve ) は、e Mann Whitney 統計 ( http://en.wikipedia.org/wiki/Mann -Whitney_U )
しかし、アルゴリズム (つまり J48) をデータセットに適用することによって、10 個のラベル付きインスタンス (Y または N、バイナリ ターゲット属性) を取得した場合、これらの 10 個のインスタンスに 10 個の予測ラベルがあるとは思えません。では、AUC_Y、AUC_N、および AUC_Avg を計算するには、正確には何を使用すればよいでしょうか? 予測のランク付けされたラベル Y および N または実際のラベル (Y' および N') を使用しますか? または、TP レートと FP レートを計算する必要がありますか?
誰かが私に小さな例を与えて、マン・ホイットニー統計アプローチに基づいて AUC を計算するためにどのデータを使用する必要があるかを教えてもらえますか? ありがとうございます。
サンプルデータ:
inst# actual predicted error PrY PrN
1 1:y 1:y *0.973 0.027
2 1:y 1:y *0.999 0.001
3 2:n 1:y + *0.568 0.432
4 2:n 2:n 0.382 *0.618
5 1:y 2:n + 0.421 *0.579
6 2:n 2:n 0.146 *0.854
7 1:y 1:y *1 0
8 1:y 1:y *0.999 0.001
9 2:n 2:n 0.11 *0.89
10 1:y 2:n + 0.377 *0.623