790,000 行と 140 個の予測子を持つ非常に大きなデータ フレームがあります。これらのいくつかは、互いに強い相関関係にあり、異なるスケールで関係しています。randomForest
パッケージを使用すると、データの小さなサンプルのみを使用して各コアでフォレストを成長させることができます。次のように、関数を使用しforeach
てそれらをマージし、combine()
1 つの大きなツリーを取得します。
rf.STR = foreach(ntree=rep(125, 8), .combine=combine, .multicombine=TRUE, .packages='randomForest') %dopar% {
sample.idx = sample.int( nrow(dat), size=sample.size, replace=TRUE)
randomForest(x=dat[sample.idx,-1, with=FALSE],
y=dat[sample.idx, retention], ntree=ntree)
}
party
さまざまなスケールで変数が相関しているため、パッケージの条件付きランダム フォレストを使用したいと思いますがcombine()
、cforest の方法がないため、複数の cforest オブジェクトを組み合わせて 1 つの重要度プロットまたは 1 つの予測を取得する方法がわかりません。
データの小さなサブセットで 1 つの大きな cforest をトレーニングする方法、またはいくつかの小さな cforest を作成してそれらを 1 つの大きな条件付きフォレスト モデルに結合する方法はありますか?