2

イベントの確率(スポーツゲームの結果ですが、それも重要ではありません)を推定するために、ヒューリスティック(ANNですが、それは重要ではありません)を作成しました。いくつかの入力が与えられると、このヒューリスティックはイベントの確率を教えてくれます。次のようなもの:これらの入力を考えると、チームBは65%の確率で勝ちます。

私は現在結果(以前にプレイしたゲーム)の入力データの大規模なセットを持っています。推定量の精度を評価するためにどの式/メトリックを使用できますか。

私が見ている問題は、推定者がイベントの確率が20%であり、実際にイベントが発生していると言った場合です。見積もりが正しいか間違っているかを判断する方法がありません。多分それは間違っていて、イベントはそれよりも可能性が高かった。たぶんそれは正しいです、イベントは約20%の確率で発生し、実際に発生しました。おそらくそれは間違っています。イベントが発生する可能性は非常に低く、たとえば1000分の1ですが、今回はたまたま発生しました。

幸いなことに、私はこれらの実際のテストデータをたくさん持っているので、おそらくそれらを使用してヒューリスティックを修飾する方法があります。

誰かアイデアがありますか?

4

3 に答える 3

3

二項分類器のパフォーマンスを定量化するために使用できる測定値は多数あります。

推定量(ANNなど)が較正された確率を出力するかどうかを気にしますか?

そうでない場合、つまり重要なのはランクの順序付けである場合、ROC曲線(AUROC)の下の領域を最大化することは、メトリックのパフォーマンスのかなり良い要約です。その他は「KS」統計、リフトです。多くが使用されており、パフォーマンスのさまざまな側面を強調しています。

キャリブレーションされた確率に関心がある場合、最も一般的なメトリックは「クロスエントロピー」(ベルヌーイ確率/最尤法、ロジスティック回帰で使用される一般的な尺度とも呼ばれます)または「ブライアスコア」です。ブライアスコアは、連続予測確率をバイナリの実際の結果と比較した平均二乗誤差に他なりません。

どちらを使用するのが正しいかは、分類器の最終的なアプリケーションによって異なります。たとえば、分類子はパンクの確率を非常にうまく推定できますが、近い結果では標準以下になります。

通常、最適化しようとしている真の指標は「ドル建て」です。これを数学的に表すのは難しいことがよくありますが、それから始めて、適切で計算上扱いやすいメトリックを考え出すのが最善の方法です。

于 2009-10-28T02:24:53.170 に答える
1

あなたが述べたように、イベントが発生するのは20%で、発生しないのは80%であると予測した場合、単一の孤立したイベントを観察しても、推定量がどれほど良いか悪いかはわかりません。ただし、20%の成功を予測したイベントのサンプルが多数あるが、そのサンプルで30%が成功したことを確認すると、推定器がオフになっていると疑う可能性があります。
1つのアプローチは、予測される発生確率によってイベントをグループ化し、グループごとに実際の頻度を観察し、その差を測定することです。たとえば、データの量に応じて、20%から25%の発生を予測するすべてのイベントをグループ化し、グループごとに実際の発生頻度を計算し、各グループの差を測定します。これにより、推定量に偏りがあるかどうか、そしておそらくどの範囲でそれがずれているかについての良いアイデアが得られるはずです。

于 2009-10-26T00:32:42.583 に答える
1

ある意味では、使用している決定関数に依存します。

二項分類タスク (イベントが発生したかどうかを予測する [例: 勝利]) の場合、単純な実装は1、確率が 50% より大きいかどうかを予測し、0そうでないかどうかを予測することです。

マルチクラスの問題 (K 個のイベントのどれが発生したかを予測する [例: 勝ち/引き分け/負け]) がある場合、最も確率の高いクラスを予測できます。

ヒューリスティックを評価する方法は、各入力の実際のクラスをそのインスタンスのヒューリスティックの予測と比較して予測誤差を計算することです。

通常、データをトレーニング/テスト部分に分割して、パフォーマンスのより良い (偏りのない) 推定値を取得することに注意してください。

ROC 曲線など、評価のための他のツールが存在します。これは、真/偽陽性に関するパフォーマンスを表す方法です。

于 2009-10-25T23:31:17.260 に答える