algorithm - MinHashing アルゴリズムの類似度メトリックとして距離を設定する

Question

私は現在、MinHashing技術を使用したドキュメントクラスタリングに取り組んでいます。ただし、MinHash は概算でJaccard similarityあり、要件に合わないため、望ましい結果が得られません。

これは私のシナリオです:

私は膨大な数の本を持っており、単一のページがクエリとして与えられた場合、このページが取得された対応する本を見つける必要があります。制限は、本全体の機能があり、本のページごとの機能を取得することが不可能であることです。この場合、本が大きすぎると、Jaccard 類似度の結果が悪くなります。私が本当に欲しいのは、クエリページと書籍の間の距離です (その逆ではありません)。あれは：

2 つのセット A、B が与えられた場合: A から B までの距離が必要です。

dis(A->B) =  (A & B)/A

セットAからセットBまでの距離を与える同様の距離メトリックはありますか?さらに、MinHashingこの種の類似メトリックでアルゴリズムを使用することはまだ可能ですか?

score 1 · Accepted Answer

MinHash アルゴリズムと同様のアプローチを使用して、提案された距離関数を推定できます。

一部のハッシュ関数について、 overとh(x)の最小値を計算します。これらの値をおよびで表します。MinHash アルゴリズムは、確率が. である確率が観察されるかもしれません。次に、これら 2 つの確率の比率として計算できます。hABh_min(A)h_min(B)h_min(A) = h_min(B)(A & B) / (A | B)h_min(A) <= h_min(B)A / (A | B)(A & B) / A

通常の MinHash アルゴリズムと同様に、必要な分散が得られるまでサンプリングを繰り返すことで、これらの確率を概算できます。

algorithm - MinHashing アルゴリズムの類似度メトリックとして距離を設定する

1 に答える 1

Related

Reference