4

1664 (列) x 208 (行) のデータ セットでランダム フォレストを実行しようとしています。私の従属変数は保持時間 (秒) であり、独立変数は 1664 の異なる記述子であり、すべての異なる化合物です。すべての記述子は値を与え、カテゴリ変数ではありません。回帰のためにランダム フォレストを実行しようとしています。ただし、次のコードを使用して実行しようとすると:-

urine.rf <- randomForest(RT..seconds.~., data=urine, importance=TRUE)

メッセージが表示されます:-

randomForest.default(m, y, ...) のエラー: 32 を超えるカテゴリを持つカテゴリ予測変数を処理できません。

何らかの形式の model.matrix を構築することで、これを回避できることをオンラインで読みました。私はRにまったく慣れていないので、これを行う方法について少しも手がかりがありません。すべてのセルが数値になるように、csv ファイルのセルをフォーマットしようとしましたが、何らかの理由で、まだカテゴリカル予測子として出くわします。どうすればこれを回避できますか?

RT (seconds)    1_MW    2_AMW   3_Sv    4_Se    5_Sp    6_Ss    
46.58353    155.18  7.76    11.8    20.61   12.21   32.67   0.59
46.79514    145.29  5.01    14.76   28.37   16.11   21  0.51
48.18893    169.21  7.36    13.4    23.49   13.97   34.17   0.58
49.94328    169.21  7.36    13.4    23.49   13.97   34.17   0.58
50.81087    187.33  5.51    17.87   33.59   19.32   30.17   0.53
51.3834 104.2   4.96    10.39   20.67   11.41   16.5    0.49
51.51799    125.17  8.94    7.41    14.81   8.3 27.92   0.53
52.67208    117.13  7.81    8.2 15.73   8.45    29.33   0.55
52.79043    137.18  7.22    11.59   19.12   12.13   26.33   0.61
52.79046    161.23  6.2 13.71   26.27   14.7    33.5    0.53

これは、私が使用しているデータベースのようです。RT を Y 変数にし、他のすべて (1_MW とその後のすべて) を独立変数 (1664 あります) にします。

ありがとう

4

2 に答える 2