3

たくさんのファイルが入ったハードディスクがあります。それらの中から重複ファイルを見つけるにはどうすればよいでしょうか。
最初にできることは、FILE_SIZE に基づいてファイルを分離することです。
次に、MD5 などのアルゴリズムを使用して各ファイルのハッシュ値を見つけることができます。同じハッシュを持つものは重複します。

FILE_SIZEを使用する以外に、重複ファイルの候補を分離するための他のアプローチについて誰か教えてください。おそらくファイルヘッダー、拡張子、またはその他のアイデアを使用していますか?

4

1 に答える 1

2

複数レベルの比較を使用したい場合があります。必要以上に遅いものを実行することを避けるために、速いものが最初に来ます。提案:

  1. ファイルの長さを比較します。

  2. 次に、ファイルの最初の 1K バイトを比較します。

  3. 次に、ファイルの最後の 1K バイトを比較します。(ファイルの最初と最後の部分には、変更される署名、内部チェックサム、変更データなどが含まれる可能性が高くなります。)

  4. ファイルの CRC32 チェックサムを比較します。心配するセキュリティ対策がない限り、暗号化ハッシュではなく CRC を使用してください。CRCははるかに高速になります。

于 2013-08-07T16:57:22.333 に答える