回帰問題では、多くのカテゴリ予測因子 (因子) があります。これらの要因の多くには多数の水準があります (これらの変数の 1 つに 2000 水準)。予測子などの変数を使用した回帰は非常に高度にパラメータ化されるため、そのような変数の多くのまれなレベルを「他の」レベルに折りたたむ方法があるかどうか疑問に思っていました.
たとえば、R で factor 関数を使用できます。
newx <- factor(oldx, levels=c(1,2,3,rep(4,1996)))
すべての変数について、より一般的なレベルのレベルは保持され、あまり一般的でないレベルの「その他」にマップされます ( をtable(oldx)
参照)。ただし、Rでこれを行う標準的な方法が既にあるかどうか疑問に思っていました。また、他に気をつけることはありますか?
ありがとう