statistics - 2 つのエラー値の差が大きいかどうかの判断

Question

私は、イベントが発生する確率を予測することを仕事とするさまざまなアルゴリズムを評価しています。

大規模なデータセットでアルゴリズムをテストしています。((誤差の合計) の二乗) の平方根である「二乗平均平方根誤差」を使用して、それらの有効性を測定します。エラーは、予測された確率 (0 と 1 の間の浮動小数点値) と実際の結果 (0.0 または 1.0) の差です。

だから私はRMSEと、アルゴリズムがテストされたサンプルの数を知っています.

問題は、RMSE 値が互いに非常に近い場合があることです。これらの値の差が単なる偶然なのか、それとも実際のパフォーマンスの差なのかを判断する方法が必要です。

理想的には、特定の RMSE 値のペアについて、一方が他方よりも優れている確率を知りたいので、この確率を有意性のしきい値として使用できます。

score 11 · Accepted Answer

MSE は平均であるため、中心極限定理が適用されます。したがって、2 つの MSE が同じかどうかをテストすることは、2 つの平均が等しいかどうかをテストすることと同じです。2 つの平均を比較する標準的なテストと比べて難しいのは、サンプルが相関していることです。つまり、どちらも同じイベントに由来します。しかし、MSE の差は、差二乗誤差の平均と同じです (平均は線形です)。これは、次のように 1 サンプル t 検定を計算することを示唆しています。

それぞれについて、手順 1 と 2xの誤差を計算します。e
二乗誤差の差を計算し(e2^2-e1^2)ます。
差の平均を計算します。
差の標準偏差を計算します。
として t 統計量を計算しmean/(sd/sqrt(n))ます。
t 統計量を臨界値と比較するか、p 値を計算します。たとえば、の場合、信頼水準 5% で等式を棄却します|t|>1.96。

RMSE は MSE の単調変換であるため、このテストで実質的に異なる結果が得られることはありません。ただし、MRSE が RMSE であると想定しないように注意してください。

より大きな懸念事項は、オーバーフィッティングです。モデルの推定に使用しなかったデータを使用して、すべての MSE 統計を計算してください。

score 4 · Accepted Answer

あなたは、計算だけでなく哲学の広大で論争の多い領域に入っています。有意性検定とモデル選択は、ベイジアンとフリークエンティストの間で激しい意見の不一致の対象となっています。データセットをトレーニングセットと検証セットに分割することに関する Triston のコメントは、ベイジアンを喜ばせるものではありません。

RMSE は確率の適切なスコアではないことをお勧めします。サンプルが独立している場合、適切なスコアは、実際の結果に割り当てられた確率の対数の合計です。(それらが独立していない場合、手が混乱します。) 私が説明しているのは、「プラグイン」モデルのスコア付けです。適切なベイジアンモデリングでは、モデルパラメーターを統合する必要がありますが、これは計算上非常に困難です。プラグインモデルを調整するベイジアンの方法は、ありそうもない (大きな) モデルパラメータのスコアにペナルティを追加することです。それは「体重減少」と呼ばれています。

Christopher Bishop 著の Neural Networks for Pattern Recognition を読んで、発見の道を歩み始めました。私はそれを使用し、Gill などによるPractical Optimizationを使用して、私にとって非常にうまく機能するソフトウェアを作成しました。

score 0 · Accepted Answer

コメント欄の質問にここでお答えします。件名が大きすぎてコメントで処理できません。

クリフノートバージョン。

私たちが話しているスコアのタイプは、確率を測定します。（それがあなたがしていることに適切であるかどうかは別の質問です。）サンプルが独立していると仮定すると、すべての確率を単純に乗算することで「合計」確率が得られます。しかし、それは通常、途方もなく少ない数になるので、同等に、確率の対数を追加します。大きいほど良いです。ゼロは完璧です。

遍在する二乗誤差-x^2（xはモデルの誤差）は、トレーニングデータが「ガウスノイズ」で破損した観測値（測定値）で構成されているという（多くの場合不当な）仮定に由来します。ウィキペディアなどでガウス（正規）分布の定義を見ると、e ^（-x ^ 2）という用語が含まれていることがわかります。その自然対数を取り、出来上がり！、-x^2。ただし、モデルは、測定値として最も可能性の高い「プレノイズ」値を生成しません。それらは確率を直接生成します。したがって、実行するのは、観測されたイベントに割り当てられた確率の対数を追加することです。これらの観測は、ノイズがないと想定されています。トレーニングデータがそれが起こったことを示している場合、それは起こった。

元の質問は未回答のままです。2つのモデルが「大幅に」異なるかどうかを判断するにはどうすればよいですか？それは漠然とした難しい質問です。それは多くの議論の対象であり、感情や恨みさえもあります。それはあなたが答えたい質問でもありません。あなたが知りたいのは、どのモデルがあなたに最高の期待利益を与えるか、各ソフトウェアパッケージの費用などを含むすべてのことを考慮したことです。

私はこれをすぐに中断する必要があります。ここはモデリングと確率に関するコースの場所ではなく、私は教授としての資格がありません。

statistics - 2 つのエラー値の差が大きいかどうかの判断

3 に答える 3

Related

Reference