1

これは昨日の私の質問の続きです:ハッシュライブラリ経由で重複ファイルを見つけていますか?

ファイルをファイルサイズにグループ化する必要があることに気付きました。たとえば、1 つのフォルダーに 10 個のファイルがあり、そのうちの 3 個がそれぞれ 50 バイトだった場合、3 個のファイルをグループ化します。

以下を使用して、ファイルのサイズをバイト単位で確認できることがわかりました。

print os.stat(/Users/simon/Desktop/file1.txt).st_size

また:

print os.path.getsize(/Users/simon/Desktop/file1.txt)

これは素晴らしいことです。しかし、os.walk を使用してフォルダーをスキャンし、上記の方法のいずれかを使用してファイルのグループをまとめて一覧表示するにはどうすればよいでしょうか??

その後、hashlib の MD5 を介してそれらをハッシュし、重複を見つけたいと考えています。

4

2 に答える 2