問題タブ [locality-sensitive-hash]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
1297 参照

scala - Uber による Spark LSH の numHashTable に使用する値は?

.approxSimilarityJoinSpark MLlib LSH: MinHash for Jaccard Distanceを使用しようとしています。

numHashTables が高いほど、システムがより正確になり、計算がより複雑/遅くなることを理解しています。パラメータについて 2 つの質問があります。

  • numHashTables と MinHash 指紋サイズの関係は?
  • 値を正しく設定するにはどうすればよいですか?

注: このアルゴリズムは Uber によって MLlib に追加されていると思います: https://eng.uber.com/lsh/

0 投票する
1 に答える
274 参照

bigdata - 最小ハッシュを使用してセットの類似性を推定するために使用する順列の最適数

ドキュメント A と B の間のジャカードの類似性を推定する必要があり、これらのセット/ドキュメントの和集合の k 個のランダム順列を使用して、ドキュメントの署名を決定するとします。

k 値はどのように設定すればよいですか? 非常に高い値に設定すると計算時間が大幅に増加するため、適切な jaccard インデックス推定値を得ることができる k の最小値は何でしょうか?

許容誤差 e>0 とデルタが与えられた場合、ジャカード インデックスが (1-e)jaccard_estimate と (1+e)jaccard_estimate の間にあり、(1-delta) 以上の確率で k の最小値を決定するにはどうすればよいですか? ?

これは、チャーノフの不等式境界を使用して導出できると思いますが、どうすればよいかわかりません。どんな助けでも大歓迎です。前もって感謝します!