21

のヘルプページにrandomforest::randomforest()は次のように書かれています。

「classwt - クラスの事前確率。1 つまで追加する必要はありません。回帰のために無視されます。」

classwtバランスの取れていない重いデータがある場合、パラメーターの設定が役立ちます。クラスの事前確率は大きく異なりますか?

classwt事前確率のベクトルが (p1,p2,p3) で、テスト セットの事前確率が (q1,q2,q3) である 3 つのクラスを持つデータセットでモデルをトレーニングする場合、どのように設定すればよいですか?

4

1 に答える 1

23

大量の不均衡なデータがある場合、classwt パラメーターを設定すると役立ちますか? クラスの事前確率が大きく異なりますか?

はい、classwt の値を設定すると、不均衡なデータセットに役立ちます。そして、これらの値がトレーニングデータをサンプリングする確率に変換されるというジョランに同意します(元の記事でのブレイマンの議論による)。

3 つのクラスを持つトレーニング データセットで (p1、p2、p3) に等しい事前確率のベクトルがあり、テスト セットの事前確率が (q1、q2、q3) の場合、classwt をどのように設定しますか?

トレーニングの場合は、単に指定できます

rf <- randomForest(x=x, y=y, classwt=c(p1,p2,p3))

テスト セットの場合、事前確率は使用できません。1) predictrandomForest パッケージのメソッドにはそのようなオプションはありません。2) 重みは、モデルのトレーニングに対してのみ意味があり、予測に対しては意味がありません。

于 2012-04-12T05:24:31.980 に答える