私は実際に高次元データ (〜 50.000-100.000 の機能) に取り組んでおり、最近傍検索を実行する必要があります。次元が大きくなるにつれて KD-Trees のパフォーマンスが低下することを知っています。また、一般に、すべての空間分割データ構造は、高次元データで徹底的な検索を実行する傾向があることも読みました。
さらに、考慮すべき重要な事実が 2 つあります (関連性の高い順に並べてあります)。
- 精度:最近隣を見つける必要があります (近似ではありません)。
- 速度:検索はできるだけ速くする必要があります。(データ構造を作成する時間はそれほど重要ではありません)。
そこで、次のことについてアドバイスが必要です。
- k-NN を実行するためのデータ構造。
- 可能な限り正確に設定して、aNN (近似最近傍) アプローチを使用する方が良い場合は?.