artificial-intelligence - 分類アルゴリズムのパフォーマンスの測定

Question

手に分類の問題があり、機械学習アルゴリズムで対処したいと思います（ベイズ、またはマルコフ、おそらく問題は使用する分類器に依存しません）。トレーニングインスタンスの数を考えると、データの過剰適合の問題を考慮に入れて、実装された分類器のパフォーマンスを測定する方法を探しています。

つまり、N [1..100]のトレーニングサンプルが与えられた場合、すべてのサンプルでトレーニングアルゴリズムを実行し、これとまったく同じサンプルを使用してフィットネスを測定すると、データの過剰適合の問題に陥る可能性があります。分類器はそれを認識します。トレーニングインスタンスの正確な答えは、多くの予測力を持たずに、フィットネス結果を役に立たなくします。

明らかな解決策は、手作業でタグ付けされたサンプルをトレーニングとテストサンプルに分離することです。トレーニング用に統計的に有意なサンプルを選択する方法について学びたいと思います。

ホワイトペーパー、本のポインタ、PDFは大歓迎です！

score 14 · Accepted Answer

これには10 分割クロス検証を使用できます。分類アルゴリズムのパフォーマンス評価の標準的なアプローチだと思います。

基本的な考え方は、学習サンプルを 10 個のサブセットに分割することです。次に、1 つのサブセットをテストデータに使用し、他のサブセットをトレーニングデータに使用します。サブセットごとにこれを繰り返し、最後に平均パフォーマンスを計算します。

score 2 · Accepted Answer

ブラウンストーン氏が言ったように、10 分割クロス検証がおそらく最善の方法です。私は最近、 Wekaを使用して、さまざまな分類子のパフォーマンスを評価する必要がありました。これには、さまざまな分類器のパフォーマンスを簡単にテストできる API と多数のツールがあります。

artificial-intelligence - 分類アルゴリズムのパフォーマンスの測定

2 に答える 2

Related

Reference