file - 各ファイルのハッシュを計算する以外の手法で、ハードディスク上の重複ファイルを見つけるには

Question

たくさんのファイルが入ったハードディスクがあります。それらの中から重複ファイルを見つけるにはどうすればよいでしょうか。
最初にできることは、FILE_SIZE に基づいてファイルを分離することです。
次に、MD5 などのアルゴリズムを使用して各ファイルのハッシュ値を見つけることができます。同じハッシュを持つものは重複します。

FILE_SIZEを使用する以外に、重複ファイルの候補を分離するための他のアプローチについて誰か教えてください。おそらくファイルヘッダー、拡張子、またはその他のアイデアを使用していますか?

score 2 · Accepted Answer

複数レベルの比較を使用したい場合があります。必要以上に遅いものを実行することを避けるために、速いものが最初に来ます。提案:

ファイルの長さを比較します。
次に、ファイルの最初の 1K バイトを比較します。
次に、ファイルの最後の 1K バイトを比較します。(ファイルの最初と最後の部分には、変更される署名、内部チェックサム、変更データなどが含まれる可能性が高くなります。)
ファイルの CRC32 チェックサムを比較します。心配するセキュリティ対策がない限り、暗号化ハッシュではなく CRC を使用してください。CRCははるかに高速になります。

file - 各ファイルのハッシュを計算する以外の手法で、ハードディスク上の重複ファイルを見つけるには

1 に答える 1

Related

Reference