1

ドキュメント A と B の間のジャカードの類似性を推定する必要があり、これらのセット/ドキュメントの和集合の k 個のランダム順列を使用して、ドキュメントの署名を決定するとします。

k 値はどのように設定すればよいですか? 非常に高い値に設定すると計算時間が大幅に増加するため、適切な jaccard インデックス推定値を得ることができる k の最小値は何でしょうか?

許容誤差 e>0 とデルタが与えられた場合、ジャカード インデックスが (1-e)jaccard_estimate と (1+e)jaccard_estimate の間にあり、(1-delta) 以上の確率で k の最小値を決定するにはどうすればよいですか? ?

これは、チャーノフの不等式境界を使用して導出できると思いますが、どうすればよいかわかりません。どんな助けでも大歓迎です。前もって感謝します!

4

1 に答える 1