2

「名前」、「都市」などの予測子を持つトレーニング データでランダム フォレストをトレーニングしようとしています。これら 2 つの予測変数には、32 を超えるカテゴリがあります。それらを含めるにはどうすればよいですか?

他のいくつかのアルゴリズムでさえ、SVM や gbm などのより大きなカテゴリを処理していないようです。

4

1 に答える 1

2

通常、速度の理由から、とにかく randomforest への数式インターフェイスの使用を避けることをお勧めします。代わりに、model.matrix数式で使用し、その結果を randomforest にフィードします。次に、カテゴリを二分する (つまり、ダミーにするか、2 値変数に変換する) ため、好きなだけカテゴリを作成できます。

@joranが指摘したように、問題についてもっと考えたいと思うかもしれません。

于 2013-06-10T15:51:18.353 に答える