ファイルを処理するプログラムで重複を検出するために SHA-1 を使用しています。強力な暗号である必要はなく、元に戻すことができます。この高速ハッシュ関数のリストを見つけましたhttps://code.google.com/p/xxhash/
より高速な関数と SHA-1 に近いランダム データの衝突が必要な場合は、何を選択すればよいですか?
ファイルの重複排除には 128 ビットのハッシュで十分ではないでしょうか? (vs 160 ビット sha-1)
私のプログラムでは、ハッシュは 0 ~ 512 KB のチャンクで計算されます。