wekaでは、誘導されたツリーがトレーニングデータに過適合しているかどうかを確認するにはどうすればよいですか?
編集:
これらは、大規模なトレーニング セットと、はるかに小さな検証セット (大規模なトレーニング セットのクラス比に基づいて動的に生成された) に基づくランダム フォレスト分類器の構築の結果です。
オーバーフィッティングがあると、テスト セット (私は検証セットと呼んでいます) のパフォーマンスが著しく低下するとおっしゃいましたか? しかし、この場合はあまり落ちないようです。
大規模なトレーニング セット (25000 レコード)
=== Evaluation on training set ===
=== Summary ===
Correctly Classified Instances 24849 99.3563 %
Incorrectly Classified Instances 161 0.6437 %
Kappa statistic 0.9886
Mean absolute error 0.0344
Root mean squared error 0.0887
Relative absolute error 30.31 %
Root relative squared error 37.2327 %
Total Number of Instances 25010
検証セット (IID?) (5000 レコード)
=== Evaluation on training set ===
=== Summary ===
Correctly Classified Instances 4951 99.02 %
Incorrectly Classified Instances 49 0.98 %
Kappa statistic 0.9827
Mean absolute error 0.0402
Root mean squared error 0.0999
Relative absolute error 35.269 %
Root relative squared error 41.8963 %
Total Number of Instances 5000