これは、必要なハッシュアルゴリズムの理論を伴う組み合わせ論の問題です。
入力が 30 kB から 5 MB のサイズのバイトの任意のランダムなシーケンスであるとしましょう (これにより、かなりの数の入力値の組み合わせが作成されると思います :))
バイト シーケンスから計算された MD5 ハッシュの最初の 4 バイト (または最初の n バイト) が異なるファイルで同じになる確率は?
これが MD5 ハッシュ専用に計算できない場合、一様に分散された m バイト ハッシュを生成するハッシュ関数が、指定された入力範囲の最初の n バイトで衝突を伴うハッシュを計算する確率はどれくらいですか?