7

それぞれ1000枚の画像を持つ10のクラスから画像の特徴を抽出しています。抽出できる特徴は 50 個あるので、ここで使用する最適な特徴の組み合わせを見つけようと考えています。トレーニング、検証、およびテスト セットは次のように分類されます。

Training set = 70%
Validation set = 15%
Test set = 15%

検証セットでフォワード機能選択を使用して最適な機能の組み合わせを見つけ、最後にテスト セットを使用して全体的な精度を確認します。誰かが私がそれを正しく行っているかどうか教えてもらえますか?

4

2 に答える 2

23

したがって、 kNNは、教師あり機械学習モデルを構築/テストするための一般的なワークフローの例外です。特に、kNN を介して作成されたモデルは、メトリック空間に配置された利用可能なラベル付きデータにすぎません。

つまり、kNN の場合、構築するモデルがないため、トレーニング ステップはありません。kNN で行われているのは、テンプレート マッチングと補間だけです。

検証ステップもありません。検証では、トレーニング データに対するモデルの精度を反復回数 (トレーニングの進行状況) の関数として測定します。オーバーフィッティングは、この経験的曲線の上向きの動きによって証明され、トレーニングを中止すべきポイントを示します。つまり、モデルが構築されていないため、検証するものは何もありません。

ただし、ターゲット (ラベルまたはスコア) がモデルから隠されているデータを使用して、予測の品質を評価することはできます。

しかし、kNN と他の教師あり機械学習手法では、テストでさえ少し異なります。特に、kNN の場合、予測の質はもちろんデータ量、より正確には密度 (単位体積あたりのポイント数) に依存します。それに最も近い点がある場合は、予測したい点に近い点があると役立ちます。したがって、テスト セットのサイズを小さく保つか、k 分割交差検証または 1 つを除外する交差検証を使用することをお勧めします。どちらも、より完全なモデル テストを提供しますが、サイズを縮小するという犠牲はありません。あなたのkNN近隣人口。

于 2012-05-30T12:48:23.257 に答える