machine-learning - kNN: トレーニング、テスト、および検証

Question

それぞれ1000枚の画像を持つ10のクラスから画像の特徴を抽出しています。抽出できる特徴は 50 個あるので、ここで使用する最適な特徴の組み合わせを見つけようと考えています。トレーニング、検証、およびテストセットは次のように分類されます。

Training set = 70%
Validation set = 15%
Test set = 15%

検証セットでフォワード機能選択を使用して最適な機能の組み合わせを見つけ、最後にテストセットを使用して全体的な精度を確認します。誰かが私がそれを正しく行っているかどうか教えてもらえますか?

score 23 · Accepted Answer

したがって、 kNNは、教師あり機械学習モデルを構築/テストするための一般的なワークフローの例外です。特に、kNN を介して作成されたモデルは、メトリック空間に配置された利用可能なラベル付きデータにすぎません。

つまり、kNN の場合、構築するモデルがないため、トレーニングステップはありません。kNN で行われているのは、テンプレートマッチングと補間だけです。

検証ステップもありません。検証では、トレーニングデータに対するモデルの精度を反復回数 (トレーニングの進行状況) の関数として測定します。オーバーフィッティングは、この経験的曲線の上向きの動きによって証明され、トレーニングを中止すべきポイントを示します。つまり、モデルが構築されていないため、検証するものは何もありません。

ただし、ターゲット (ラベルまたはスコア) がモデルから隠されているデータを使用して、予測の品質を評価することはできます。

しかし、kNN と他の教師あり機械学習手法では、テストでさえ少し異なります。特に、kNN の場合、予測の質はもちろんデータ量、より正確には密度 (単位体積あたりのポイント数) に依存します。それに最も近い点がある場合は、予測したい点に近い点があると役立ちます。したがって、テストセットのサイズを小さく保つか、k 分割交差検証または 1 つを除外する交差検証を使用することをお勧めします。どちらも、より完全なモデルテストを提供しますが、サイズを縮小するという犠牲はありません。あなたのkNN近隣人口。

machine-learning - kNN: トレーニング、テスト、および検証

2 に答える 2

Related

Reference