Weka で 10 分割クロス検証を使用しました。
これは通常、データが 10 の部分に分割され、90% がトレーニング、10% がテストであり、これが 10 回繰り返されることを意味します。
結果の AUC を Weka が何を計算するのか疑問に思っています。全10回のテストセットの平均ですか?それとも (これが本当であることを願っています)、ホールドアウト テスト セットを使用しますか? wekaの本でこれについての説明を見つけることができないようです.
Weka で 10 分割クロス検証を使用しました。
これは通常、データが 10 の部分に分割され、90% がトレーニング、10% がテストであり、これが 10 回繰り返されることを意味します。
結果の AUC を Weka が何を計算するのか疑問に思っています。全10回のテストセットの平均ですか?それとも (これが本当であることを願っています)、ホールドアウト テスト セットを使用しますか? wekaの本でこれについての説明を見つけることができないようです.
Wekaはテスト結果を平均化します。そして、これはホールドアウト セットよりも優れたアプローチです。なぜそのようなアプローチを望むのか理解できません。テスト セット (サイズは?) を差し出すと、テストは統計的に有意ではなくなります。トレーニング データで最適に選択されたパラメーターについて、データの任意の小さな部分で何らかのスコアを達成したと言えます。相互検証 (評価手法として) の全体的なポイントは、すべてのデータをトレーニングとして、またテストとして順番に使用することです。したがって、結果のメトリックは、真の評価尺度の期待値の近似値になります。ホールドアウトテストを使用すると、期待値に収束しません(少なくとも妥当な時間ではありません)そしてさらに重要なことは、別の定数(ホールドアウトセットの大きさとその理由)を選択し、トレーニングに使用されるサンプルの数を減らす必要があることです(相互検証が開発されている間)トレーニングとテストの両方で小さなデータセットを使用するという問題に対処します)。
私は自分で相互検証を実行し(独自のランダムフォールドを作成し、10 個の分類子を作成しました)、平均 AUC を確認しました。また、データセット全体が AUC を報告するために使用されたかどうかも確認しました (Weka が 10 倍未満の決定木を出力する場合と同様です)。
によって発見された単純ベイズ分類器を使用したクレジット データセットの AUC ...
私の平均 AUC と Weka の AUC の間にはわずかな違いがありますが、これは襞の複製に失敗したことが原因である可能性があります (私は種を制御しようとしましたが)。