r - RのRandomForestパッケージのRandomForest関数のパラメータ「classwt」は何を表していますか?

Question

のヘルプページにrandomforest::randomforest()は次のように書かれています。

「classwt - クラスの事前確率。1 つまで追加する必要はありません。回帰のために無視されます。」

classwtバランスの取れていない重いデータがある場合、パラメーターの設定が役立ちます。クラスの事前確率は大きく異なりますか?

classwt事前確率のベクトルが (p1,p2,p3) で、テストセットの事前確率が (q1,q2,q3) である 3 つのクラスを持つデータセットでモデルをトレーニングする場合、どのように設定すればよいですか?

score 23 · Accepted Answer

大量の不均衡なデータがある場合、classwt パラメーターを設定すると役立ちますか? クラスの事前確率が大きく異なりますか?

はい、classwt の値を設定すると、不均衡なデータセットに役立ちます。そして、これらの値がトレーニングデータをサンプリングする確率に変換されるというジョランに同意します（元の記事でのブレイマンの議論による）。

3 つのクラスを持つトレーニングデータセットで (p1、p2、p3) に等しい事前確率のベクトルがあり、テストセットの事前確率が (q1、q2、q3) の場合、classwt をどのように設定しますか?

トレーニングの場合は、単に指定できます

rf <- randomForest(x=x, y=y, classwt=c(p1,p2,p3))

テストセットの場合、事前確率は使用できません。1) predictrandomForest パッケージのメソッドにはそのようなオプションはありません。2) 重みは、モデルのトレーニングに対してのみ意味があり、予測に対しては意味がありません。

1 に答える 1