language-agnostic - ハッシュテーブルの実装でランダム化されたプロービングが一般的ではないのはなぜですか?

Question

ウィキペディアや Google が見つけたさまざまな .edu Web サイトなどのさまざまな情報源によると、ハッシュテーブルが衝突を解決する最も一般的な方法は、線形または二次プローブとチェーンです。ランダム化されたプロービングについては簡単に言及されていますが、あまり注目されていません。ランダム化されたプロービングを使用して衝突を解決するハッシュテーブルを実装しました。衝突があると仮定すると、解決は次のように機能します。

オブジェクトの完全な (32 ビット) ハッシュは、線形合同乱数ジェネレーターをシードするために使用されます。
ジェネレーターは 32 ビットの数値を生成し、モジュラスを使用して、次にプローブするハッシュテーブル内の場所を決定します。

これには、モジュラス空間にハッシュ衝突がいくつあっても、完全な 32 ビットハッシュ空間で衝突がほとんどない限り、ルックアップと挿入の時間は O(1) であると予想されるという非常に優れた特性があります。プローブシーケンスは疑似ランダムであるため、線形プローブとは異なり、モジュラス空間の衝突によるクラスタリング動作は発生しません。システム全体がオープンアドレスであり、リンクリストをどこにも使用しないため、連鎖とは異なり、挿入ごとにメモリ割り当てを実行する必要はありません。

さらに、ハッシュのサイズは通常、アドレス空間のサイズ (32 ビットマシンでは 32 ビット) であるため、完全な 32 ビットハッシュで多数のハッシュ衝突を引き起こすのに十分なアイテムをアドレス空間に収めることは単純に不可能です。適切なハッシュスキームの下のスペース。

では、なぜランダム化されたプロービングがこのような人気のない衝突解決戦略なのですか?

score 7 · Accepted Answer

線形ルックアップ ( double hasingなど) を使用する理由の 1 つは、キャッシュの局所性です。2 番目の (再ハッシュ) 関数を小さい整数の加算にすることで、ほとんどの場合、同じキャッシュラインにヒットする可能性があります。大きなハッシュの場合、これは非常に重要です。

チェーンハッシュは、その単純さからおそらく使用されます。

score 4 · Accepted Answer

Python の辞書実装はこれを行います。dictobject.cの非常に素晴らしいコメントは次のように述べています。

...
The first half of collision resolution is to visit table indices via this
recurrence:

    j = ((5*j) + 1) mod 2**i

For any initial j in range(2**i), repeating that 2**i times generates each
int in range(2**i) exactly once (see any text on random-number generation for
proof).
...

確かに私には線形合同 RNG のように見えます!

このような RNG の完全な状態はiビットのみであることに注意してください。つまり、エントリの再訪を避けるために、そうする必要があります。そのため、「オブジェクトの完全な (32 ビット) ハッシュ」を使用してシードすることは意味がありません。 RNG。Python は、最初にハッシュからiビットをjにシードします。別の衝突が発生した場合、ハッシュからさらに 5 ビットを取得し、それらをミックスに投入します。(そのコメントの残りの部分、特にについて説明している部分を読んでください。) ハッシュコード全体を使い果たすまで、衝突ごとにさらにビットを追加しながら、この方法を続けます。このように、Python はハッシュコードが提供するランダム性を適切な量で使用し、コードはシンプルで高速です。PERTURB_SHIFT

これは私が今まで読んだ中で最高のコードの一部です。Beautiful Codeの第 18 章で紹介されています。だから私はあなたが何かに取り組んでいると思います！

score 4 · Accepted Answer

考えられる理由は、線形または二次プロービングです。

同じ最悪の場合の時間計算量 (O(テーブルのサイズ)) を持つ
同じベストケースの時間計算量 (O(1)) を持つ
より簡単に実装できます
優れたRNGよりも高速です（速度はハッシュテーブルの主要なセールスポイントであるため）

確信はないけど。別の衝突解決で独自のハッシュテーブルを実装し、異なる状況で 2 つを比較しましたか? それは非常に啓発的です。

score 0 · Accepted Answer

ランダムハッシュがあまり使用されない理由は、ハッシュ関数に何か「問題」がない限り、32 ビットハッシュから小さなハッシュ値が計算されるときのハッシュ衝突がまれになる傾向があるためだと思います。ハッシュ関数の 32 ビットすべてが一致する可能性がかなり高い (たとえば、ハッシュの計算にキーの一部しか使用されていないため)。ハッシュ関数がまともで、負荷係数がかなり低い場合、線形および二次プロービングは良好なキャッシュの局所性を提供します (ハッシュ衝突の大部分は、1 つの余分な項目のみを調べることで解決されることに注意してください。これは、線形プローブと二次プローブの両方で、最初の推測に従うもの)。線形プローブは、すべてのキーが同じ値にマップされる場合や、場合によっては少数の値にマップされる場合でも、いくらか優れたパフォーマンスを提供します。

score 0 · Accepted Answer

データがまばらでないテーブルへの挿入では、重複する要素の反復処理を開始する前に、ハッシュテーブルのすべての要素にヒットするという保証がないという問題はありませんか?

その結果、挿入時間は明確に定義されません。

language-agnostic - ハッシュテーブルの実装でランダム化されたプロービングが一般的ではないのはなぜですか?

5 に答える 5

Related

Reference