algorithm - スパース整数セットを表す?

Question

整数のスパースセット (実際には C メモリアドレス) をコンパクトで高速な方法で表現する良い方法は何ですか。ビットベクトルやランレングスエンコーディングなどの明らかなことについては、すでに知っています。しかし、セット要素ごとに 1 つの単語よりもはるかにコンパクトなものが必要です。要素を追加および削除し、メンバーシップをテストする必要があります。ユニオンのような他のセット操作は必要ありません。

何年も前にそのような図書館について読みましたが、その名前を忘れてしまいました。HPによってオープンソースとしてリリースされ、女性の名前が付けられたと思います。

score 10 · Accepted Answer

あなたはジュディアレイについて言及しています。HP企画でした。Rubyで使用され、cで利用できると思います。非常に興味深いデータ構造。割り当てが (少なくとも) 単語にアラインされているという事実を利用して、密な範囲と疎な範囲に別々の構造を持っています。

http://judy.sourceforge.net/index.html

score 4 · Accepted Answer

非常にコンパクトなデータ構造は、ブルームフィルター、おそらく削除をサポートするカウンティングブルームフィルターになります。

http://en.wikipedia.org/wiki/Bloom_filter

1970 年に Burton H. Bloom によって考案されたブルームフィルターは、要素がセットのメンバーであるかどうかをテストするために使用されるスペース効率の高い確率的データ構造です。偽陽性は可能ですが、偽陰性はそうではありません。要素をセットに追加することはできますが、削除することはできません (ただし、これはカウントフィルターで対処できます)

score 1 · Accepted Answer

挿入、削除、およびメンバーシップのテストだけが必要な場合は、ハッシュテーブルが適しています。32 ビット整数をハッシュするための優れたハッシュ関数をいくつか見つけることができます。

score 0 · Accepted Answer

構造をデータセットよりも小さくしたい場合は、おそらくある種のツリー配置を検討する必要があります。4 ウェイツリーの各レベルを上限から 2 ビットでキーオフすると、かなりうまく圧縮される可能性があります (ポインターにある程度の空間的局所性がある場合)。トリックは、それを十分にコンパクトにエンコードすることです（ノードの配列へのインデックス？配列マップツリー？）。

algorithm - スパース整数セットを表す?

4 に答える 4

Related

Reference