かなり大きなデータセットを使用して GBM モデルを構築しています。data.table
データ処理に最適です。しかし、GBM モデルを実行すると、完了するまでに時間がかかります。アクティビティ モニター (Mac) を見ると、プロセスがすべてのメモリを使い果たしておらず、プロセッサを使い果たしていないことがわかります。
GBM はシングル コアであり、マルチコアで実行するように変更することはできません。実行時間を改善するためのオプションは何ですか? 現在、4BG RAM と 1.7GHz i5 を搭載した Macbook Air を使用しています。
次のオプションのどれがパフォーマンスに最も役立つかはわかりません。(i) より大きなメモリを搭載したコンピューターを購入する。(ii) より強力なチップ (i7) を入手するか、(iii) Amazon AWS を使用してそこに R をインストールします。これらはそれぞれどのように役立ちますか?
Brandson の要求に従ってサンプル コードを追加します。
library(gbm)
GBM_NTREES = 100
GBM_SHRINKAGE = 0.05
GBM_DEPTH = 4
GBM_MINOBS = 50
GBM_model <- gbm.fit(
x = data[,-target] ,
y = data[,target] ,
#var.monotone = TRUE, #NN added
distribution = "gaussian"
,n.trees = GBM_NTREES ,
shrinkage = GBM_SHRINKAGE ,
interaction.depth = GBM_DEPTH ,
n.minobsinnode = GBM_MINOBS ,
verbose = TRUE)