c++ - 整数を上位ビットに直接基づいてN個のほぼ等しいサイズのバケットにハッシュします（順序を維持します）

Question

できれば手っ取り早い方法。ケースはN = 2^bとても簡単です。そのために、最初に、選択したタイプのビット数を把握します。

typedef unsigned int type;
size_t size = sizeof(type) * 8;

次に、適切なビット数だけ右シフトを実行して、上位bビットのハッシュキーを生成します。

type input = 0x657;
unsigned char b = 4;
unsigned char hash = input >> (size - b);

しかし、私が欲しかったらどうしN = 3ますか？または他の2の累乗ではありませんか？N私が常に（最大で256になる）の中に収まると仮定すると、いくつかunsigned charをハッシュする最も速い方法は何でしょうかinput？input上記の関数のように、バケットの範囲の差を+/- 1以下に保ち、の上位ビットの順序も維持します。

score 3 · Accepted Answer

32 ビット値の場合は、64 ビットの乗算をN行い、上位 32 ビットを保持します。(他のサイズについても同様ですが、64 ビット値の場合、乗算はより複雑になります。)

これが基本的な証明の概要です。

このマッピングが順序を保持していることは明らかです。唯一の問題は、各バケットにいくつの値が入るかです。ここで、いくつかのバケットを検討し、そのバケットにマップされるj最小のものを見つけます。バケツに入るということは、どこにあることを意味しますが、がそのiような最小の値である場合、. (そうしないと、bucket にも分類されます。)ijNi − j×2³² = m0 ≤ m < 2³²i0 ≤ m < Ni−1j

では、を定義します。これは、と言うのと同じです。これら 2 つの式を足し合わせると、次のことがわかります。単純化すると、とが得られます。つまり、またはが (が負かどうかに応じて) にマップされる最小値であることを意味します。つまり、またはにマップされる値が存在することを意味します。これはどのにも当てはまるため、バケットサイズは 2 つしかなく、そのうちの 1 つがであると断言できます。他の可能なバケットサイズは.w = ⌊2³²∕N⌋Nw − 2³² = −m' where 0 ≤ m' < NNi + Nw - j×2³² - 2³² = m−m'N(i+w)-(j+1)×2³² = m−m'−N < m−m' < Ni + wi + w + 1j + 1m − m'ww + 1jj⌊2³²∕N⌋⌈2³²∕N⌉

上記の証明には何も魔法はありません。任意の値を使用できました。しかし、それでは凝縮された証明がさらに読みにくくなってしまうでしょう。2³²M

c++ - 整数を上位ビットに直接基づいてN個のほぼ等しいサイズのバケットにハッシュします（順序を維持します）

1 に答える 1

Related

Reference