hash - ブルームフィルターと FM スケッチの違い

Question

ブルームフィルターとハッシュスケッチ (FM スケッチも) の違いは何ですか? また、それらの用途は何ですか?

score 6 · Accepted Answer

ハッシュスケッチ/Flajolet-Martin スケッチ

Flajolet, P./Martin, G. (1985): データベースアプリケーションの確率的カウントアルゴリズム。Journal of Computer and System Sciences、Vol. 31、No.2 (1985 年 9 月)、182-209 ページ。

Durand, M./Flajolet, P. (2003): Loglog Counting of Large Cardinalities, in: Springer LNCS 2832, Algorithms ESA 2003, pp. 605–617.

ハッシュスケッチは、セット内の個別の要素の数をカウントするために使用されます。

与えられた：

要素 x の挿入:

セット内の異なる要素の数:

利用方法：

Bloom, H. (1970): 許容可能なエラーを伴うハッシュコーディングにおける空間/時間のトレードオフ、: Communications of the ACM、Vol. 13, No. 7 (1970 年 7 月), pp. 422-426.

ブルームフィルターは、要素がセットのメンバーであるかどうかをテストするために使用されます。

与えられた：

要素 x の挿入:

y がすでにセットに含まれているかどうかを確認します。

すべてのハッシュ関数 h_k (h_k(y)) を使用してチェックする位置 p_k を取得します。つまり、関数 h_k ごとに位置 p_k を取得します。
位置 p_k の 1 つが配列 B で 0 に設定されている場合、要素 y は決定的にセットに含まれていません。
p_k で指定されたすべての位置が 1 の場合、要素 y は (!) セット内にある可能性があります
偽陽性率はおよそ (1 - e^(-kn/m))^k であり、偽陰性はあり得ません!
ハッシュ関数の数を増やすことで、偽陽性率を下げることができます。ただし、同時にブルームフィルターが遅くなります。k の最適値は k = (m/n)ln(2) です。

利用方法：