0

大規模なデータセットのを計算しようとしてAUCいますが、0または1だけでなく、適度に高速に動作する値の両方を処理するデータセットを見つけるのに問題があります。

これまでパッケージを試しましたROCRが、0と1しか処理できず、pROCパッケージから回答が得られますが、100万行を計算するのに5〜10分かかる場合があります。

注意として、私の値はすべて0から1の間にありますが、必ずしも1または0である必要はありません。

編集:答えと予測の両方が0-1の間にあります。

助言がありますか?

EDIT2:

ROCRこのような状況に対処できます:

Ex.1
actual   prediction
  1         0
  1         1
  0         1
  0         1 
  1         0

またはこのように:

Ex.2
actual   prediction
  1         .25
  1         .1
  0         .9
  0         .01
  1         .88

しかし、このような状況ではありません:

Ex.3
actual   prediction
  .2         .25
  .6         .1
  .98        .9
  .05        .01
  .72        .88

pROCEx.3を処理できますが、計算に非常に長い時間がかかります。Ex.3のような状況では、より高速な実装ができることを期待しています。

4

2 に答える 2

1

これまでROCRパッケージを試しましたが、0と1しか処理できません。

参照クラスのメンバーシップまたは予測されるクラスのメンバーシップについて話しているのですか?後者はROCRでは0から1の間である可能性があり、そのサンプルデータセットを見てくださいROCR.simple

参照が[0、1]にある場合は、(免責事項:my)パッケージsoftclassvalを参照できます。ただし、感度と特異度の計算からROC/AUCを構築する必要があります。したがって、(ROCR開発者が行ったように)最適化されたアルゴリズムを考えない限り、おそらくそれも時間がかかります。その場合、感度と特異性が正確に何を意味するのかを考える必要があります。これは、(0、1)の参照メンバーシップではあいまいだからです。

質問を明確にした後に更新する

参照または実際をグループ化すると、情報が失われることに注意する必要があります。たとえば、actual=0.5およびprediction=0.8の場合、それはどういう意味ですか?これらの値が実際に実際の値=5/10であり、予測値=5/10であるとします。10個のテストを2つの数値に要約すると、10個のうち同じ5個が意味されているかどうかという情報が失われます。これがないと、実際の=5/10および予測=8/10は、30%から70%の正しい認識と一致します。

これは、感度が説明されている図です(つまり、クリックスルーなどの正しい認識)。

柔らかくて

このような問題について議論しているポスター全体と2つのプレゼンテーションは、 softclassval.r-forge.r-project.orgの「softclassvalについて」のセクションにあります。

これらの考えを続けると、平均絶対、平均二乗、二乗平均平方根などの誤差の加重バージョンも使用できます。

ただし、モデルの同じパフォーマンス特性を表現するためのこれらのさまざまな方法(たとえば、感度=実際のクリックスルーイベントの正しい認識の割合)はすべて異なる意味を持ち、明確な参照および予測状況での通常の計算と一致します、あいまいな参照/部分参照クラスのメンバーシップに対して異なる反応を示します。

また、参照/実際と予測の両方に[0、1]の連続値を使用するため、ROCまたは特異度-感度プロットでテスト全体が1つのポイント(線ではありません!)に凝縮されます。

結論:データをグループ化すると、ここで問題が発生します。だから、もしあなたがどういうわけかシングルクリックで情報を得ることができたら、それを手に入れてください!

于 2012-05-23T18:25:05.890 に答える
1

メソッドのパフォーマンスを評価するために他のエラー測定を使用できますか?(例:平均絶対誤差、二乗平均平方根誤差)?

この投稿も役立つかもしれませんが、観測値と予測値のクラスの数が異なる場合は、いくつかの問題が発生する可能性があります。

https://stat.ethz.ch/pipermail/r-help/2008-September/172537.html

于 2012-05-24T11:43:47.047 に答える