10k から 100k のような非常に膨大な次元の k-NN 探索問題に関する記事はありますか?
実際のデータでのテストを含む記事のほとんどは、10 ~ 50 の範囲で動作し、100 ~ 500 の範囲で動作する記事もいくつかあります。
私の場合、最大 100k の特徴次元に最大 10^9 ポイントあり、次元数を効果的に削減する方法はありません。
UPD .: 現時点では、VP ツリーを適応させて実装しようとしていますが、この次元のツリー構造がうまく機能しないことは明らかです。
2 つ目のアプローチは LSH ですが、データの分布によっては精度に大きな問題が生じる可能性があります。