それで、私は現在いくつかで遊んでいるので、ハッシュ関数に関するウィキペディアのページを読みました。そのページと私が読んだ他のソースの両方で、データの分布がハッシュ関数に影響を与えると述べています。
いくつかの説明にもかかわらず、これらの効果が正確に何であり、おそらくその理由はまだ不明です. だから私の質問:
- 私が正しいことを確認するために、彼らが分布について言及するとき、これは入力データセット内の各単語の頻度ですか?
- 入力データの分散はハッシュ関数にどのような影響を与えますか? 特に興味深いのは、ハッシュ アルゴリズムによって生成される出力の速度と均一性の両方に関するハッシュ関数のパフォーマンスです。
編集 1: 具体的には、ウィキペディアの英語コーパスと、より動的なソース (たとえば Twitter のツイート) からのデータとの比較について考えています。