手に分類の問題があり、機械学習アルゴリズムで対処したいと思います(ベイズ、またはマルコフ、おそらく問題は使用する分類器に依存しません)。トレーニングインスタンスの数を考えると、データの過剰適合の問題を考慮に入れて、実装された分類器のパフォーマンスを測定する方法を探しています。
つまり、N [1..100]のトレーニングサンプルが与えられた場合、すべてのサンプルでトレーニングアルゴリズムを実行し、これとまったく同じサンプルを使用してフィットネスを測定すると、データの過剰適合の問題に陥る可能性があります。分類器はそれを認識します。トレーニングインスタンスの正確な答えは、多くの予測力を持たずに、フィットネス結果を役に立たなくします。
明らかな解決策は、手作業でタグ付けされたサンプルをトレーニングとテストサンプルに分離することです。トレーニング用に統計的に有意なサンプルを選択する方法について学びたいと思います。
ホワイトペーパー、本のポインタ、PDFは大歓迎です!