私は今、機械学習に関する本を読んでいます。
著者NaiveBayesClassifier
に取り組むことは、交差検証法を非常に支持しています。
彼は、データを 10 個のバケット (ファイル) に分割し、毎回異なるバケットを差し控えて、そのうちの 9 個をトレーニングすることを提案しています。
これまでのところ、私がよく知っている唯一のアプローチは、データをトレーニング セットとテスト セットに 50%/50% の比率で分割し、単純に分類子を一度にトレーニングすることです。
クロスバリデーションを使用する利点を誰か説明してもらえますか?