1

非常に高いレベルでは、これは最近傍探索問題に似ています。

ウィキから:「空間 M 内の点の集合 S とクエリ点 q ∈ M が与えられた場合、S 内で q に最も近い点を見つける」。

しかし、いくつかの重要な違いがあります。仕様:

  • 各点は k 個の変数によって記述されます。
  • 変数はすべて数値ではありません。混合データ型: string、int など。
  • 未知のすべての変数のすべての可能な値 - しかし、それらは合理的に小さなセットから来ています。
  • 検索するデータセットには、すべての k 変数に対して同じ値を持つ複数のポイントがあります。
  • これを見る別の方法は、多くの重複ポイントがあることです。
  • 各ポイントについて、重複の数を頻度として呼び出しましょう。
  • クエリ ポイント q が与えられた場合、p の頻度が少なくとも 15 になるような最近傍 p を見つける必要があります。

NNS や統計的分類、ベスト ビン マッチに関しては、さまざまなアルゴリズムがあるようです。

私はすべてのバリエーションで少し迷っています。使用できる標準アルゴリズムは既にありますか。または、いずれかを変更する必要がありますか?

4

0 に答える 0