数十万のデータポイントを持つ高次元 (私の場合は 32) のデータセットでほぼ均等に分散されたデータに対して、Locality Sensitive Hashing による最近傍検索をサポートする軽量の Java ライブラリを探しています。
クエリのバケット内のすべてのエントリを取得するだけで十分です。本当に必要なものは、問題に含まれるいくつかのフィルターパラメーターを考慮して、別の方法で処理できます。
私はすでにlikelikeを見つけましたが、もう少し小さく、他のツール (likelike の場合は Apache Hadoop など) を必要としないものがあることを願っています。