したがって、約 16,000 の 75 次元データ ポイントがあり、各ポイントについて、k 個の最近傍を見つけたいと考えています (ユークリッド距離を使用して、現在は k=2 で簡単にできます)。
私が最初に考えたのは、これに kd ツリーを使用することでしたが、実際には、次元の数が増えるにつれてかなり非効率になることがわかりました。私のサンプル実装では、徹底的な検索よりもわずかに高速です。
私の次のアイデアは、PCA (主成分分析) を使用して次元数を減らすことですが、疑問に思っていました: これを適切な時間内に正確に解決するための巧妙なアルゴリズムまたはデータ構造はありますか?