1

私は今、機械学習に関する本を読んでいます。

著者NaiveBayesClassifierに取り組むことは、交差検証法を非常に支持しています。

彼は、データを 10 個のバケット (ファイル) に分割し、毎回異なるバケットを差し控えて、そのうちの 9 個をトレーニングすることを提案しています。

これまでのところ、私がよく知っている唯一のアプローチは、データをトレーニング セットとテスト セットに 50%/50% の比率で分割し、単純に分類子を一度にトレーニングすることです。

クロスバリデーションを使用する利点を誰か説明してもらえますか?

4

3 に答える 3

5

交差検証は、バイアスと分散の間のトレードオフに対処する方法です。

トレーニング セットでモデルを取得するときの目標は、分散を最小限に抑えることです。これを行うには、項や高次多項​​式などを追加します。

しかし、真の目的は、モデルが見たことのないポイントの結果を予測することです。それが、テスト セットがシミュレートするものです。

トレーニング セットでモデルを作成してから、テスト セットで試します。最良の結果をもたらす分散と偏りの最小の組み合わせがあることがわかります。両方を最小化する最も単純なモデルを選択する必要があります。

詳細については、Hastie と Tibshirani による「An Intro to Statistical Learning」または「Elements of Statistical Learning」をお勧めします。

于 2015-04-19T18:06:56.370 に答える