たくさんのファイルが入ったハードディスクがあります。それらの中から重複ファイルを見つけるにはどうすればよいでしょうか。
最初にできることは、FILE_SIZE に基づいてファイルを分離することです。
次に、MD5 などのアルゴリズムを使用して各ファイルのハッシュ値を見つけることができます。同じハッシュを持つものは重複します。
FILE_SIZEを使用する以外に、重複ファイルの候補を分離するための他のアプローチについて誰か教えてください。おそらくファイルヘッダー、拡張子、またはその他のアイデアを使用していますか?