Count-Min スケッチの幅 (バケットの数) と深さ (ハッシュ関数の数) によって、取得される頻度推定の精度が決まります。
Count-Min の元の著者の2005 年の論文から:
パラメーター w と d は、w=⌈e/ε⌉ と d=⌈ln1/δ⌉ を設定することで選択できます。ここで、クエリに答える際のエラーは確率 δ で係数 ε 以内です。
これから、上記のように:
w=⌈e/error⌉
d=⌈ln(1/(1−certainty))⌉
Count-Min の元の著者による2011 年の論文から:
99.9 の確実性で、最大 0.1 (すべての周波数の合計) のエラーが必要であるとします。次に、2/w=1/1000 が必要で、w=2000 と設定し、(1/2)^d=0.001、つまり d=log0.001/log0.5 ≤ 10 とします。
その結果:
w=⌈2/error⌉
d=⌈ln(1−certainty)/ln(1/2)⌉
それでも、エラーは、スケッチに保存されている要素の総数 N に依存する必要があります。要素が多いほど、エラーとエラーの確率が高くなります。最初のスケッチを作成するための適切な関数は何ですか?