22

数十万のデータポイントを持つ高次元 (私の場合は 32) のデータセットでほぼ均等に分散されたデータに対して、Locality Sensitive Hashing による最近傍検索をサポートする軽量の Java ライブラリを探しています。

クエリのバケット内のすべてのエントリを取得するだけで十分です。本当に必要なものは、問題に含まれるいくつかのフィルターパラメーターを考慮して、別の方法で処理できます。

私はすでにlikelikeを見つけましたが、もう少し小さく、他のツール (likelike の場合は Apache Hadoop など) を必要としないものがあることを願っています。

4

5 に答える 5

5

多分これ:

「TarsosLSH は、部分線形時間で動作する多次元ベクトルの実用的な最近傍検索アルゴリズムである Locality-sensitive Hashing (LSH) を実装する Java ライブラリです。いくつかの Locality Sensitive Hashing (LSH) ファミリをサポートしています: ユークリッド ハッシュ ファミリ (L2)、都市ブロック ハッシュ ファミリー (L1) とコサイン ハッシュ ファミリー。このライブラリは、実際のタスクを完了するのに十分な能力と、LSH がどのように機能するかのデモンストレーションとして機能するのに十分なコンパクトさの間のスイート スポットを見つけようとします。」

コードはここにあります

于 2014-02-24T07:44:32.880 に答える
1

ここで別のもの: https://github.com/allenlsy/knn

KNN には LSH を使用します。使い勝手は現在調査中です(^^)

于 2013-05-03T12:12:48.710 に答える
1

これがあります: http://code.google.com/p/lsh-clustering/

テストする時間がありませんでしたが、少なくともコンパイルされます。

于 2012-05-22T18:53:10.230 に答える