大規模なデータセットで knn 検索を実行することに興味があります。
いくつかのライブラリがあります: ANNとFLANNですが、質問に興味があります: メモリ (RAM) に完全に収まらないデータベースがある場合、検索を整理するにはどうすればよいですか?
データが非常に高次元かどうかによって異なります。比較的次元が低い場合は、 Spatialiteなどの既存のオンディスクR ツリー実装を使用できます。
それがより高次元のデータである場合は、X-Treesを使用できますが、私の頭の上にあるディスク上の実装については知りません。
または、 mmap などを使用して、オンディスクの永続性を使用して、局所性に依存するハッシュを実装することもできます。