2

私のアルゴリズムは、与えられたアミノ酸配列についていくつかの測定可能な特性を予測します。ここで、実際の測定値と私の値を含むテーブルが与えられました。アルゴリズムのパフォーマンスをどのように計算すればよいですか?

例:

Sequence Property1 Prediction1 
seq1     3l.4      35.0         |Prediction matches well
seq2     23.4      79.9         |Prediction was off
seq3     20.0      20.3         |Prediction as super

==>アルゴリズムはうまく機能しました。

これを定量化する方法はありますか?

4

2 に答える 2

2

はい、品質の指標を作成します。

最も単純なのは最小二乗法です。結果と測定値の差を計算し、それを二乗し、二乗を合計します。値の数で割ります。thenの平方根は、標準誤差ノルムを示します。

ただし、これは、すべての測定値に対して正しい答えを得ることが等しく重要であることを前提としています。一部が他より重要である場合は、合計でそれらに重みを付ける必要があります。

上記の答えの2倍悪いものは何かという質問を自問してみてください。すべてのエラーを2倍にしますか?

于 2012-04-24T08:41:58.510 に答える
0

Property12つの値が( vs )どれだけ近いかを把握するだけのPrediction1場合は、次のようにします。

Sequence Property1 Prediction1 Diff
seq1     3l.4      35.0         3.6  | Prediction matches well
seq2     23.4      79.9        56.5  | Prediction was off
seq3     20.0      20.3         0.3  | Prediction as super

列に基づいて、その行に配置する「グレード」を決定しDiffます。

コードでは、次のようになります。

diff = abs(Property1 - Prediction1)

if (diff < 1.0)        Prediction was super
else if (diff < 5.0)   Prediction matches well
else if (diff < ...)   ...
else                   Prediction was off

値の完全なシーケンス(値の列diff全体など)があり、予測全体がよく一致するかどうかを確認したい場合は、これらの値の標準偏差を計算できます。その後、それはあなたが受け入れても構わないと思っている偏差の大きさを定量化するだけの問題です。

于 2012-04-24T08:38:24.693 に答える