コメント欄の質問にここでお答えします。件名が大きすぎてコメントで処理できません。
クリフノートバージョン。
私たちが話しているスコアのタイプは、確率を測定します。(それがあなたがしていることに適切であるかどうかは別の質問です。)サンプルが独立していると仮定すると、すべての確率を単純に乗算することで「合計」確率が得られます。しかし、それは通常、途方もなく少ない数になるので、同等に、確率の対数を追加します。大きいほど良いです。ゼロは完璧です。
遍在する二乗誤差-x^2(xはモデルの誤差)は、トレーニングデータが「ガウスノイズ」で破損した観測値(測定値)で構成されているという(多くの場合不当な)仮定に由来します。ウィキペディアなどでガウス(正規)分布の定義を見ると、e ^(-x ^ 2)という用語が含まれていることがわかります。その自然対数を取り、出来上がり!、-x^2。ただし、モデルは、測定値として最も可能性の高い「プレノイズ」値を生成しません。それらは確率を直接生成します。したがって、実行するのは、観測されたイベントに割り当てられた確率の対数を追加することです。これらの観測は、ノイズがないと想定されています。トレーニングデータがそれが起こったことを示している場合、それは起こった。
元の質問は未回答のままです。2つのモデルが「大幅に」異なるかどうかを判断するにはどうすればよいですか?それは漠然とした難しい質問です。それは多くの議論の対象であり、感情や恨みさえもあります。それはあなたが答えたい質問でもありません。あなたが知りたいのは、どのモデルがあなたに最高の期待利益を与えるか、各ソフトウェアパッケージの費用などを含むすべてのことを考慮したことです。
私はこれをすぐに中断する必要があります。ここはモデリングと確率に関するコースの場所ではなく、私は教授としての資格がありません。