1

モデルの統計を調べると、 の数値が の数値とconfusion matrix一致していないようOOB error rateですrandomForest

混同行列から OOB エラー率を推定するにはどうすればよいですか? それらの間の関係は何ですか?

以下の例では、2 つのモデルからの出力を出力します。1 つは層化サンプリング (図のサンプルのサブセットを使用sampsize) で適合され、もう 1 つは層化サンプリングなしで適合されました (つまり、すべてのサンプルを使用すると思われるデフォルトのサンプリング スキームを使用)。 .

                        ここに画像の説明を入力

データは公開していませんが、関数呼び出しは次のとおりです。

sumY = summary(Y)
sampsize <- c(sumY["Y0"]/10, sumY["Y1"])

# First model in the image above
strat.rf.model <- randomForest(x=X,y=Y,sampsize=sampsize, strata=Y)

# Second model in the image above    
rf.model <- randomForest(x=X,y=Y)
4

1 に答える 1

11

一貫性がないわけではありません。ただの算術です。

> 180 / (1699 + 180)
[1] 0.09579564
> 63 / (63 + 58)
[1] 0.5206612
> (180 + 63) / (1699 + 180 + 63 + 58)
[1] 0.1215

各クラスのエラー率は、そのクラスだけで誤分類された観測値の割合として定義されますが、全体的な誤分類率は、データセット全体の誤分類された観測値の割合です。

各クラスの誤り率が全体の誤り率と正確に一致することはほとんどありません。少し立ち止まって考えてみると、これは完全に理にかなっています。あるクラスは他のクラスよりも識別が難しくなり、全体的なエラー率は一種の「平均」になります。

于 2013-02-13T23:46:53.970 に答える