java - Java の LSH ライブラリ

Question

数十万のデータポイントを持つ高次元 (私の場合は 32) のデータセットでほぼ均等に分散されたデータに対して、Locality Sensitive Hashing による最近傍検索をサポートする軽量の Java ライブラリを探しています。

クエリのバケット内のすべてのエントリを取得するだけで十分です。本当に必要なものは、問題に含まれるいくつかのフィルターパラメーターを考慮して、別の方法で処理できます。

私はすでにlikelikeを見つけましたが、もう少し小さく、他のツール (likelike の場合は Apache Hadoop など) を必要としないものがあることを願っています。

score 5 · Accepted Answer

多分これ：

「TarsosLSH は、部分線形時間で動作する多次元ベクトルの実用的な最近傍検索アルゴリズムである Locality-sensitive Hashing (LSH) を実装する Java ライブラリです。いくつかの Locality Sensitive Hashing (LSH) ファミリをサポートしています: ユークリッドハッシュファミリ (L2)、都市ブロックハッシュファミリー (L1) とコサインハッシュファミリー。このライブラリは、実際のタスクを完了するのに十分な能力と、LSH がどのように機能するかのデモンストレーションとして機能するのに十分なコンパクトさの間のスイートスポットを見つけようとします。」

コードはここにあります