2

現在、いくつかの Kaggle Machine Learning コンテストに参加していますが、簡単な質問があります。これらのコンテストでアルゴリズムの有効性を評価するために相互検証を使用するのはなぜですか?

これらの大会では、アルゴリズムが実際のライブデータに対してテストされている公開リーダーボードでのスコアが、アルゴリズムの有効性をより正確に表しているでしょうか?

4

1 に答える 1

2

交差検証は、モデル構築に必要なステップです。クロスバリデーションの結果が良くない場合は、実際のデータで試しても意味がありません。トレーニングと検証を行っているセットもライブ データですよね? したがって、結果は似ているはずです。モデルを検証しないと、そのパフォーマンスについての洞察はまったく得られません。トレーニング セットで 100% の精度を与えるモデルは、検証セットでランダムな結果を与える可能性があります。

繰り返しますが、相互検証はライブ データ テストの代わりではなく、モデル構築プロセスの一部です。

于 2014-01-30T00:46:06.660 に答える