KNN アルゴリズムを使用して、k=5 とします。ここで、未知のオブジェクトを 5 つの最近傍を取得して分類しようとしています。4 つの最近傍を決定した後、次の 2 つ (またはそれ以上) の最近傍オブジェクトの距離が同じ場合はどうすればよいですか? これらの 2 つ以上のオブジェクトのうち、5 番目に近いオブジェクトとして選択する必要があるのはどれですか?
4 に答える
これらの 2 つ以上のオブジェクトのうち、5 番目に近いオブジェクトとして選択する必要があるのはどれですか?
それは本当にあなたがそれをどのように実装したいかによって異なります。
ほとんどのアルゴリズムは、次の 3 つのいずれかを行います。
- すべての等距離ポイントを含めるため、この推定では、5 ではなく 6 ポイントを使用します。
- 2 つの等しい距離の「最初に」見つかったポイントを使用します。
- 見つかった 2 つのポイントからランダムなポイント (通常は一貫したシードを使用するため、結果が再現可能) を選択します。
そうは言っても、放射状探索に基づくほとんどのアルゴリズムには定常性の固有の前提があります。その場合、上記のオプションのどれを選択しても問題ありません。一般に、理論的には、それらのいずれも妥当なデフォルトを提供する必要があります (特に、それらは近似で最も遠いポイントであり、最小の有効な重みを持つ必要があるため)。
別の距離関数がある場合は、それを使用してネクタイを解除できます。ヒューリスティックがあれば、悪い人でも仕事をすることができます。たとえば、主距離を計算するために考慮される機能の1つがより重要であることがわかっている場合は、この機能のみを使用して同点を解決します。
そうでない場合は、ランダムに選択してください。同じテストセットでプログラムを数回実行して、ランダムな選択が重要かどうかを確認します。
k=5 の場合、上位 5 つのレコードを見て、それらの 5 つの中で最も一般的な結果を調べます。2 つのペアを獲得する可能性が高く、それがあなたを束縛に陥れる可能性があり、それは難しいでしょう。
そのため、人生は挑戦的なものになります。では、k の値をどのように選択するのでしょうか。事後に結果を分析するために使用できるメトリックがいくつかありますが、k が何である必要があるかについての厳密なルールはありません。道路では、予測の実際の精度を調べることで、k の値を最適化するのに役立ついくつかの戦略を調べます。