モデルの統計を調べると、 の数値が の数値とconfusion matrix
一致していないようOOB error rate
ですrandomForest
。
混同行列から OOB エラー率を推定するにはどうすればよいですか? それらの間の関係は何ですか?
以下の例では、2 つのモデルからの出力を出力します。1 つは層化サンプリング (図のサンプルのサブセットを使用sampsize
) で適合され、もう 1 つは層化サンプリングなしで適合されました (つまり、すべてのサンプルを使用すると思われるデフォルトのサンプリング スキームを使用)。 .
データは公開していませんが、関数呼び出しは次のとおりです。
sumY = summary(Y)
sampsize <- c(sumY["Y0"]/10, sumY["Y1"])
# First model in the image above
strat.rf.model <- randomForest(x=X,y=Y,sampsize=sampsize, strata=Y)
# Second model in the image above
rf.model <- randomForest(x=X,y=Y)