machine-learning - 異なるグループサイズの適合率と再現率の計算

Question

この質問に対する答えがどこにも見つからなかったので、ここの誰かが私と同じ問題を抱えている他の人を助けてくれることを願っています.

1000 個の Positive samplesと1500 個の Negative samplesがあるとします。

ここで、950 個の真陽性(陽性として正しく分類された陽性サンプル) と100 個の偽陽性(陽性として誤って分類された陰性サンプル) があるとします。

これらの生の数値を使用してPrecisionを計算する必要がありますか、それとも異なるグループサイズを考慮する必要がありますか?

つまり、私の精度は次のようになります。

TruePositive / (TruePositive + FalsePositive) = 950 / (950 + 100) = 90.476%

または、次のようにする必要があります。

(TruePositive / 1000) / [(TruePositive / 1000) + (FalsePositive / 1500)] = 0.95 / (0.95 + 0.067) = 93.44%

最初の計算では、各グループのサンプル数を考慮せずに生の数値を使用しましたが、2 番目の計算では、対応するグループに対する各測定値の比率を使用して、グループの違いによって生じるバイアスを取り除きました。サイズ

score 2 · Accepted Answer

前述の質問に答えると、定義により、精度は最初の式 TP/(TP+FP) で計算されます。

ただし、この式、つまり精度測定を使用する必要があるという意味ではありません。他にも多くの対策があります。この wiki ページの表を見て、自分のタスクに最も適したものを選択してください。

たとえば、正の尤度比は、2 番目の式に最も似ているようです。

machine-learning - 異なるグループ サイズの適合率と再現率の計算