ブルーム フィルターが Web クローリングでどのように役立つか、特に URL が既にクロールされているかどうかを判断するのに役立つという話をよく耳にします (ブルーム フィルターはセット メンバーシップのテストでメモリ効率が高いため)。
しかし、Web クローリングの使用例では、遭遇する URL の数がほぼ無限であることを考えると、ビット/バケットの数を膨大にする必要があるのではないでしょうか? 特に、毎日データをクロールしようとしている Google や検索エンジンの場合はなおさらです。
私の質問は、URL の数が増え続け、バケットの数が一定のままである場合に、URL が既にクロールされているかどうかを判断するのにブルーム フィルターがどのように役立つかということです。