2

wekaでは、誘導されたツリーがトレーニングデータに過適合しているかどうかを確認するにはどうすればよいですか?

編集:

これらは、大規模なトレーニング セットと、はるかに小さな検証セット (大規模なトレーニング セットのクラス比に基づいて動的に生成された) に基づくランダム フォレスト分類器の構築の結果です。

オーバーフィッティングがあると、テスト セット (私は検証セットと呼んでいます) のパフォーマンスが著しく低下するとおっしゃいましたか? しかし、この場合はあまり落ちないようです。

大規模なトレーニング セット (25000 レコード)

=== Evaluation on training set ===
=== Summary ===

Correctly Classified Instances       24849               99.3563 %
Incorrectly Classified Instances       161                0.6437 %
Kappa statistic                          0.9886
Mean absolute error                      0.0344
Root mean squared error                  0.0887
Relative absolute error                 30.31   %
Root relative squared error             37.2327 %
Total Number of Instances            25010     

検証セット (IID?) (5000 レコード)

=== Evaluation on training set ===
=== Summary ===

Correctly Classified Instances        4951               99.02   %
Incorrectly Classified Instances        49                0.98   %
Kappa statistic                          0.9827
Mean absolute error                      0.0402
Root mean squared error                  0.0999
Relative absolute error                 35.269  %
Root relative squared error             41.8963 %
Total Number of Instances             5000     
4

2 に答える 2