5

私は700万行のデータ(41の機能)でRでrandomForestモデルをトレーニングしてきました。呼び出し例は次のとおりです。

myModel <-randomForest(RESPONSE〜。、data = mydata、ntree = 50、maxnodes = 30)

確かに、ツリーが50個、ターミナルノードが30個しかないので、「myModel」のメモリフットプリントは小さいと思いました。しかし、ダンプファイルでは65メガバイトです。オブジェクトは、トレーニングプロセスからのあらゆる種類の予測、実際、および投票データを保持しているようです。

森が欲しいだけでそれだけだとしたら?後でロードして予測をすばやく行うことができる小さなダンプファイルが必要です。森自体はそんなに大きくてはいけない気がします...

誰かがこの吸盤を私が将来の予測をすることができる何かにまで取り除く方法を知っていますか?

4

2 に答える 2

1

コメントとして回答を投稿する習慣から抜け出そうとしています...

?randomForest多数の変数で数式インターフェイスを使用しないようにアドバイスします...数式インターフェイスを使用しない場合、結果は異なりますか?の[値]セクションで?randomForestは、出力の一部(重要度マトリックス、フォレスト全体、近接マトリックスなど)をオフにする方法も説明しています。

例えば:

myModel <- randomForest(mydata[,!grepl("RESPONSE",names(mydata))],
  mydata$RESPONSE, ntree=50, maxnodes=30, importance=FALSE,
  localImp=FALSE, keep.forest=FALSE, proximity=FALSE, keep.inbag=FALSE)
于 2012-12-03T20:50:25.210 に答える