非常に高いレベルでは、これは最近傍探索問題に似ています。
ウィキから:「空間 M 内の点の集合 S とクエリ点 q ∈ M が与えられた場合、S 内で q に最も近い点を見つける」。
しかし、いくつかの重要な違いがあります。仕様:
- 各点は k 個の変数によって記述されます。
- 変数はすべて数値ではありません。混合データ型: string、int など。
- 未知のすべての変数のすべての可能な値 - しかし、それらは合理的に小さなセットから来ています。
- 検索するデータセットには、すべての k 変数に対して同じ値を持つ複数のポイントがあります。
- これを見る別の方法は、多くの重複ポイントがあることです。
- 各ポイントについて、重複の数を頻度として呼び出しましょう。
- クエリ ポイント q が与えられた場合、p の頻度が少なくとも 15 になるような最近傍 p を見つける必要があります。
NNS や統計的分類、ベスト ビン マッチに関しては、さまざまなアルゴリズムがあるようです。
私はすべてのバリエーションで少し迷っています。使用できる標準アルゴリズムは既にありますか。または、いずれかを変更する必要がありますか?