1664 (列) x 208 (行) のデータ セットでランダム フォレストを実行しようとしています。私の従属変数は保持時間 (秒) であり、独立変数は 1664 の異なる記述子であり、すべての異なる化合物です。すべての記述子は値を与え、カテゴリ変数ではありません。回帰のためにランダム フォレストを実行しようとしています。ただし、次のコードを使用して実行しようとすると:-
urine.rf <- randomForest(RT..seconds.~., data=urine, importance=TRUE)
メッセージが表示されます:-
randomForest.default(m, y, ...) のエラー: 32 を超えるカテゴリを持つカテゴリ予測変数を処理できません。
何らかの形式の model.matrix を構築することで、これを回避できることをオンラインで読みました。私はRにまったく慣れていないので、これを行う方法について少しも手がかりがありません。すべてのセルが数値になるように、csv ファイルのセルをフォーマットしようとしましたが、何らかの理由で、まだカテゴリカル予測子として出くわします。どうすればこれを回避できますか?
RT (seconds) 1_MW 2_AMW 3_Sv 4_Se 5_Sp 6_Ss
46.58353 155.18 7.76 11.8 20.61 12.21 32.67 0.59
46.79514 145.29 5.01 14.76 28.37 16.11 21 0.51
48.18893 169.21 7.36 13.4 23.49 13.97 34.17 0.58
49.94328 169.21 7.36 13.4 23.49 13.97 34.17 0.58
50.81087 187.33 5.51 17.87 33.59 19.32 30.17 0.53
51.3834 104.2 4.96 10.39 20.67 11.41 16.5 0.49
51.51799 125.17 8.94 7.41 14.81 8.3 27.92 0.53
52.67208 117.13 7.81 8.2 15.73 8.45 29.33 0.55
52.79043 137.18 7.22 11.59 19.12 12.13 26.33 0.61
52.79046 161.23 6.2 13.71 26.27 14.7 33.5 0.53
これは、私が使用しているデータベースのようです。RT を Y 変数にし、他のすべて (1_MW とその後のすべて) を独立変数 (1664 あります) にします。
ありがとう