サーバーにアップロードするファイルが非常に多いので、重複を避ける方法が必要です。
したがって、大きな文字列から一意の小さなキー値を生成することは、チェックサムが意図したことのように見え、ハッシュはその進化のように見えました。
だから私はこれを行うためにハッシュmd5を使用するつもりでした。しかし、どこかで「MD5は一意のキーではない」と読んだので、それは本当に奇妙だと思いました。
これを行う正しい方法は何ですか?
編集:ところで、私は次のことに到達するために2つ のソースを取りました。これは私が現在それを行っている方法であり、Python2.5で問題なく動作しています。
import hashlib
def md5_from_file (fileName, block_size=2**14):
md5 = hashlib.md5()
f = open(fileName)
while True:
data = f.read(block_size)
if not data:
break
md5.update(data)
f.close()
return md5.hexdigest()