2

最近、R RecordLinkage パッケージの使い方を学んでいます。2 つのデータセットをリンクする非常に小さな例では、1 つが 8 行で、もう 1 つが 11 行で、結果が得られます。

Linkage Data Set

8 records in data set 1 
11 records in data set 2 
8 record pairs 

4 matches
4 non-matches
0 pairs with unknown status


Weight distribution:

[0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,0.9]   (0.9,1] 
        2         0         2         0         1         3 

3 links detected 
0 possible links detected 
5 non-links detected 

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000


Classification table:

           classification
true status N P L
      FALSE 4 0 0
      TRUE  1 0 3

理解できていないのは、アルファ エラー、ベータ エラー、および分類テーブルの精度の関係です。以下の数値は正確にはどこから来ているのですか、どのように計算されていますか:

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000

どんな助けでも大歓迎です

4

1 に答える 1

4

アルファ エラーとベータ エラーは統計的尺度であり、それぞれタイプ I およびタイプ II エラーとしてより一般的に知られています。統計用語では、アルファ エラーは帰無仮説が真である場合にそれを棄却する確率です。ベータ エラーは、帰無仮説が真ではない場合に帰無仮説を主張する確率です (例: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996198/を比較してください)。

レコード リンケージの場合、帰無仮説はレコード ペアが一致する、つまり 2 つのレコードが同じエンティティを表すというものです。したがって、アルファ エラーは、ペアが実際に一致する (偽陰性) 場合に、ペアを不一致としてラベル付けする確率です。このエラーは次のように計算されます: (「非リンク」として分類された一致の数) / (一致の数).[1] 上記の例では、4 つの一致があり、そのうち 1 つが認識されないため、アルファ エラーは 1 / 4 = 0.25 になります。

同様に、ベータ エラーは、ペアが実際には一致しない (偽陽性) 場合に、ペアを一致として分類する確率です。(「リンク」として分類された不一致の数) / (不一致の数) として計算されます。上記の例では、偽陽性の分類がないため、ベータ エラーは 0 です。別の分類テーブルを想定してみましょう。

           classification
true status N P L
      FALSE 2 0 2
      TRUE  1 0 3

この場合、4 つの不一致があり、そのうち 2 つが誤ってリンクとして分類されているため、ベータ エラーは 2 / 4 = 0.5 です。

最後に、精度は、すべてのペアの正しい分類の割合です ( https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers#Single_metricsを参照)。質問の分類表では、正しい分類が 7 つ (不一致 4 つ、一致 3 つ) あるため、精度は 7 / 8 = 0,875 です。

[1] 実際の状態とは対照的に分類アルゴリズムの結果を意味する場合、「(非)一致」の代わりに「(非)リンク」を使用します。

于 2016-07-14T08:34:33.913 に答える