matlab - Matlab : 局所性に敏感なハッシングで複数のハッシュテーブルを作成する方法の概念的な難しさ

Question

ローカリティセンシティブハッシュ (LSH) の重要な考え方は、近隣ポイントvは同じバケットにマッピングされる可能性が高く、互いに離れたポイントは異なるバケットにマッピングされる可能性が高いということです。ランダム射影を使用する場合、データベースにそれぞれ高次元 d の N 個のサンプルが含まれている場合、理論では、ランダムに生成された k 個のハッシュ関数を作成する必要がありますg(**v**) = (h_1(v),h_2(v),...,h_k(v))。したがって、任意のベクトルポイントvについて、そのポイントは g 関数を使用して k 次元ベクトルにマッピングされます。この場合、ハッシュコードは長さ / 次元 k を短縮したベクトルであり、バケットと見なされます。さて、衝突の確率を高めるために、理論によると、L 個のそのような g 関数g_1, g_2,...,g_Lをランダムに持つ必要があります。これは私が理解していない部分です。

質問 : 複数のハッシュテーブルを作成する方法を教えてください。ハッシュテーブルにはいくつのバケットが含まれていますか?

Sparse Projections for High-Dimensional Binary CodesYan Xiaらの論文に記載されているコードに従っています。al コードへのリンク

ファイル内Coding.m

dim = size(X_train, 2);
R = randn(dim, bit);

% coding
B_query = (X_query*R >= 0);
B_base = (X_base*R >=0);

X_queryはそれぞれ次元 d のクエリデータのセットで、1000 個のクエリサンプルがあります。Rはランダムな射影で、bit はターゲットの縮小次元です。との出力は、B_query0 /1 の値を取る長さの文字列です。この方法で複数のハッシュテーブルが作成されますか。つまり、ハッシュテーブルの数ですか。どうしようか迷っています。詳しい解説とても参考になります。B_baseNkN

score 1 · Accepted Answer

複数のハッシュテーブルを作成するには?

LSH は、連結によって (増幅された) ハッシュ関数を使用してハッシュテーブルを作成します。

g(p) = [h ₁ (p), h ₂ (p), ··· , h _k (p)], h _i ∈<sub>RH

g()はハッシュ関数であり、1 つのハッシュテーブルに対応します。そのため、そのハッシュテーブルを介してデータをマッピングするg()と、近いものは同じバケットに分類され、そうでないものは異なるバケットに分類される可能性があります。

そのL回数を行うため、Lハッシュテーブルを作成します。すべてが他のハッシュ関数g()とは異なる可能性が最も高い/異なるはずであることに注意してください。g()

注: k が大きい ⇒ P ₁と P ₂の間のギャップが大きい。小さな P ₁ ⇒ より大きな L で、隣人を見つけます。実際の選択は L = 5 (または 6) です。P ₁と P ₂は、次の図で定義されています。

ハッシュテーブルにはいくつのバケットが含まれていますか?

私が知っていたらいいのに！それは難しい質問です。データセット内のポイントの数はsqrt(N)どうですか。Nこれを確認してください: LSH のバケット数

Yan Xiaのコード

よくわかりませんが、おっしゃる通り、1000 個のクエリを実行したいので、表示されるクエリデータは 1000 個あると思います。

kハッシュテーブルのどのバケットにマッピングされるかを確認するには、クエリをハッシュする必要があるため、文字列の長さです。そのバケット内のポイントは、潜在的な(おおよその) Nearest Neighborsです。

matlab - Matlab : 局所性に敏感なハッシングで複数のハッシュ テーブルを作成する方法の概念的な難しさ

1 に答える 1

Related

Reference

matlab - Matlab : 局所性に敏感なハッシングで複数のハッシュテーブルを作成する方法の概念的な難しさ