1

ハードディスクに約1TBの画像が保存されています。これらは、友人や家族の時間をかけて撮影した写真です。これらの写真の多くは、ある意味で重複しており、同じファイルが別の場所に保存されており、おそらく別の名前でも保存されています。重複ファイルを見つけるためのツール、ユーティリティ、またはアプローチ(コーディングできます)はありますか?

4

1 に答える 1

5

md5deepまたはsha1deepの使用をお勧めします。Linuxでは、パッケージをインストールするだけですmd5deep(ほとんどのLinuxディストリビューションに含まれています)。

インストールしたら、ディスク全体で再帰モードで実行し、次のようなコマンドを使用して、ディスク上のすべてのファイルのチェックサムをテキストファイルに保存します。

md5deep -r -l . > filelist.txt

が好きな場合sha1md5、代わりに使用してくださいsha1deep(同じパッケージの一部です)。

ファイルを取得したら、次のコマンドを使用してファイルを並べ替えます(または前の手順でsortパイプします)。sort

sort < filelist.txt > filelist_sorted.txt

ここで、テキストエディタを使用して結果を確認するだけです。すべての複製と、ディスク上の位置がすぐにわかります。

気になる場合は、PerlまたはPythonで簡単なスクリプトを記述して、このファイルリストに基づいて重複を削除できます。

于 2013-03-06T05:39:09.707 に答える