私は700万行のデータ(41の機能)でRでrandomForestモデルをトレーニングしてきました。呼び出し例は次のとおりです。
myModel <-randomForest(RESPONSE〜。、data = mydata、ntree = 50、maxnodes = 30)
確かに、ツリーが50個、ターミナルノードが30個しかないので、「myModel」のメモリフットプリントは小さいと思いました。しかし、ダンプファイルでは65メガバイトです。オブジェクトは、トレーニングプロセスからのあらゆる種類の予測、実際、および投票データを保持しているようです。
森が欲しいだけでそれだけだとしたら?後でロードして予測をすばやく行うことができる小さなダンプファイルが必要です。森自体はそんなに大きくてはいけない気がします...
誰かがこの吸盤を私が将来の予測をすることができる何かにまで取り除く方法を知っていますか?