8

http://www.kaggle.com/c/icdar2013-gender-prediction-from-handwriting/dataのランダム フォレストの例を次の行で実行します。

forest_model <- randomForest(as.factor(male) ~ ., data=train, ntree=10000)

何時間もかかります(終了するかどうかはわかりませんが、プロセスは機能しているようです)。

データセットには 1128 行と ~7000 の変数があります。

ランダム フォレストのトレーニングがいつ終了するかを予測することはできますか? R を何らかの方法でプロファイリングして、より多くの情報を取得できますか?

4

2 に答える 2

11

問題が見つかりました。randomForest で数式を使用すると、パフォーマンスが大幅に低下します。

詳細とランダム フォレストの実行時間を推定する方法については、 https ://stats.stackexchange.com/questions/37370/random-forest-computing-time-in-rおよびhttp://www.gregorypark を参照してください。組織/?p=286

最終的なコードは次のとおりです。

forest_model <- randomForest(y=train$male, x=train[,-2], ntree=10000,do.trace=T)
于 2013-03-10T13:58:11.733 に答える
7

収束を制御する 1 つのアイデアはdo.trace詳細モードに を使用することです

iris.rf <- randomForest(Species ~ ., data=iris, importance=TRUE,
+                         proximity=TRUE,do.trace=TRUE)
ntree      OOB      1      2      3
    1:   8.62%  0.00%  9.52% 15.00%
    2:   5.49%  0.00%  3.45% 13.79%
    3:   5.45%  0.00%  5.41% 11.76%
    4:   4.72%  0.00%  4.88%  9.30%
    5:   5.11%  0.00%  6.52%  8.89%
    6:   5.56%  2.08%  6.25%  8.33%
    7:   4.76%  0.00%  6.12%  8.16%
    8:   5.41%  0.00%  8.16%  8.16%
 .......
于 2013-03-10T12:12:00.297 に答える