問題タブ [locality-sensitive-hash]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
62 参照

algorithm - 無限の特徴空間のための局所性に敏感なハッシュ

考えられるすべての機能を列挙できない場合 (たとえば、ユーザーを比較するときの Facebook のいいね) に備えて、局所性に敏感なハッシュについて頭を悩ませようとしています。この問題に対処するソリューションはありますか?

私がこれまで見てきた場所に依存するハッシュ アルゴリズムは、特徴 (単語など) の総数kである長さの有限ベクトルに依存しています。k私の場合、事前にフィーチャのセット全体を把握していませんが、データベース内の新しいアイテムの n 最近傍を見つけたいと考えています。データベースの目標サイズを考えると、各挿入のペアワイズ類似度を再計算することは現実的ではありません。

どうすればこの問題に取り組むことができますか? 誰かが同様の問題に遭遇し、解決策を見つけましたか?

0 投票する
1 に答える
360 参照

r - 数値データとカテゴリデータの両方がある場合、LSH でランダムな予測を行う方法は?

注 : 最近傍クエリに LSH を使用する

データ セットに 5 つの特徴 (f1、f2、..、f5) があると仮定します。最初の 2 つは数値で、3 つはカテゴリです。これらのカテゴリの 1 つまたは多くは、ユーザー名やサブジェクトのようなもので、エンコードするには非常に大きくなります。

Mixeducledian Distance を距離の尺度として使用し、それをハッシュ関数で使用する場合、関数のランダム射影をどのように選択すればよいですか?

HashFunction を変更する必要がある場合は問題ありません。

サンプルデータ

0 投票する
1 に答える
1016 参照

pandas - NaN 値を含むデータフレームを使用した Python Pandas のランダム射影

data実際の値といくつかの NaN 値を含むデータフレームがあります。特にクラスを使用して、次元を25コンポーネントに減らすために、ランダム射影を使用して局所性に敏感なハッシュを実行しようとしていますsklearn.random_projection.GaussianRandomProjection。ただし、実行すると:

tx = random_projection.GaussianRandomProjection(n_components = 25) data25 = tx.fit_transform(data)

私は得るInput contains NaN, infinity or a value too large for dtype('float64')。これに対する回避策はありますか?すべての NaN 値を、データセットに存在しない値 (-1 など) に変更しようとしました。この場合、私の出力はどの程度有効でしょうか? 私は局所性に敏感なハッシュ/ランダム予測の理論の背後にある専門家ではないので、洞察も役に立ちます。ありがとう。

0 投票する
1 に答える
189 参照

python - 地域に依存するハッシュのトラブルシューティング

ディープ ニューラル ネットワークライブラリであるを使用して、画像ベースの検索用の画像特徴を生成しています。私が使用している特定のネットワークは、4096 次元の特徴を生成します。

フィーチャからハッシュ バケットを生成するためにLSHashを使用しています。ユークリッド距離で画像を並べ替えて、利用可能なすべての機能を比較するためにブルートを実行すると、機能が画像の類似性をよく表していることがわかります。ただし、LSHash を使用すると、同様の機能が同じバケットに収まることはめったにありません。

ソース フィーチャが LSH で使用するには大きすぎますか? 画像の特徴をハッシュする前に、画像の特徴の次元を減らす他の方法はありますか?

0 投票する
2 に答える
342 参照

algorithm - ローカリティ センシティブ ハッシングは動的データで使用できますか?

ローカリティ センシティブ ハッシングは動的データで使用できますか? たとえば、最初に 1,000,000 個のドキュメントに対して LSH を使用し、その結果をインデックスに保存するとします。次に、作成したインデックスに別のドキュメントを追加したいとします。LSHでできますか?

0 投票する
1 に答える
506 参照

indexing - 動的データセットでローカリティ センシティブ ハッシュを使用する

データベース レコードに LSH を使用しているため、同様のレコードが同じバケットにブロックされるインデックス (データベース インデックスではなく、単純なハッシュマップ) を作成しています。データベースには、数百万のレコードが含まれる場合があります。私の質問は、以下に投稿するデザインに関するものです。

ここに画像の説明を入力

まず、LSH を実行して利用可能なデータベースを使用してインデックスを作成します。しかし、新しいレコードがデータベースに挿入されると、そのレコードもインデックスに登録する必要があります。LSHを使用してこれを行うにはどうすればよいですか? LSH はそのレコードを同様のレコードを持つバケットに割り当てることができますか?? LSH はデータセットの更新をサポートしていますか?

0 投票する
1 に答える
3877 参照

elasticsearch - ローカリティに敏感なハッシュ - Elasticsearch

Elasticsearch で LSH を許可するプラグインはありますか? はいの場合は、その場所を示して、その使い方を少し教えていただけますか? ありがとう

編集: ES が MinHash プラグインを使用していることがわかりました。これを使用してドキュメントを相互に比較するにはどうすればよいですか? 重複を見つけるのに適した設定は何ですか?