0

次のパラメーター設定でh2oランダムフォレストを実行しています

model_rf <- h2o.randomForest(x = predictors, y = labels,
                         training_frame = train_data, classification = T,
                         importance = T,
                         verbose = T, type = "BigData", ntree = 50)

実行後、次の出力が得られます。

Model Details:
==============

H2ORegressionModel: drf
Model ID:  DRFModel__906d074da6ebf8057525b2b61c1c4c87 
Model Summary:
  number_of_trees model_size_in_bytes min_depth max_depth mean_depth      min_leaves  max_leaves mean_leaves
1       50.000000      2708173.000000 20.000000 20.000000   20.00000     4200.000000 5241.000000  4720.70000


H2ORegressionMetrics: drf
** Reported on training data. **
Description: Metrics reported on Out-Of-Bag training samples

MSE:  0.0006302392
R2 :  -0.03751038

以下は私の質問です。

1) MSE と R2 は何を意味しますか?

2) 平均二乗誤差または同様の場合、分類設定でこれらのメトリックを取得するのはなぜですか?

3) gini や auc などの他の指標を取得するにはどうすればよいですか?

4) これら 2 つのパラメーターが異なるパラメーター設定で減少した場合、モデルのパフォーマンスが向上したと言えますか?

4

1 に答える 1