5

Count-Min スケッチの幅 (バケットの数) と深さ (ハッシュ関数の数) によって、取得される頻度推定の精度が決まります。

Count-Min の元の著者の2005 年の論文から:

パラメーター w と d は、w=⌈e/ε⌉ と d=⌈ln1/δ⌉ を設定することで選択できます。ここで、クエリに答える際のエラーは確率 δ で係数 ε 以内です。

これから、上記のように:

w=⌈e/error⌉

d=⌈ln(1/(1−certainty))⌉

Count-Min の元の著者による2011 年の論文から:

99.9 の確実性で、最大 0.1 (すべての周波数の合計) のエラーが必要であるとします。次に、2/w=1/1000 が必要で、w=2000 と設定し、(1/2)^d=0.001、つまり d=log0.001/log0.5 ≤ 10 とします。

その結果:

w=⌈2/error⌉

d=⌈ln(1−certainty)/ln(1/2)⌉

それでも、エラーは、スケッチに保存されている要素の総数 N に依存する必要があります。要素が多いほど、エラーとエラーの確率が高くなります。最初のスケッチを作成するための適切な関数は何ですか?

4

0 に答える 0