8

手に分類の問題があり、機械学習アルゴリズムで対処したいと思います(ベイズ、またはマルコフ、おそらく問題は使用する分類器に依存しません)。トレーニングインスタンスの数を考えると、データの過剰適合の問題を考慮に入れて、実装された分類器のパフォーマンスを測定する方法を探しています。

つまり、N [1..100]のトレーニングサンプルが与えられた場合、すべてのサンプルでトレーニングアルゴリズムを実行し、これとまったく同じサンプルを使用してフィットネスを測定すると、データの過剰適合の問題に陥る可能性があります。分類器はそれを認識します。トレーニングインスタンスの正確な答えは、多くの予測力を持たずに、フィットネス結果を役に立たなくします。

明らかな解決策は、手作業でタグ付けされたサンプルをトレーニングとテストサンプルに分離することです。トレーニング用に統計的に有意なサンプルを選択する方法について学びたいと思います。

ホワイトペーパー、本のポインタ、PDFは大歓迎です!

4

2 に答える 2

14

これには10 分割クロス検証を使用できます。分類アルゴリズムのパフォーマンス評価の標準的なアプローチだと思います。

基本的な考え方は、学習サンプルを 10 個のサブセットに分割することです。次に、1 つのサブセットをテスト データに使用し、他のサブセットをトレーニング データに使用します。サブセットごとにこれを繰り返し、最後に平均パフォーマンスを計算します。

于 2009-01-02T11:29:41.170 に答える
2

ブラウンストーン氏が言ったように、10 分割クロス検証がおそらく最善の方法です。私は最近、 Wekaを使用して、さまざまな分類子のパフォーマンスを評価する必要がありました。これには、さまざまな分類器のパフォーマンスを簡単にテストできる API と多数のツールがあります。

于 2009-01-02T11:44:11.627 に答える