python - ファイルをサイズ別にグループ化し、ハッシュの重複を見つける

翻译自：https://stackoverflow.com/questions/18749974 2013-09-11T19:48:44.027

761 次

ファイルをファイルサイズにグループ化する必要があることに気付きました。たとえば、1 つのフォルダーに 10 個のファイルがあり、そのうちの 3 個がそれぞれ 50 バイトだった場合、3 個のファイルをグループ化します。

以下を使用して、ファイルのサイズをバイト単位で確認できることがわかりました。

print os.stat(/Users/simon/Desktop/file1.txt).st_size

また：

print os.path.getsize(/Users/simon/Desktop/file1.txt)

これは素晴らしいことです。しかし、os.walk を使用してフォルダーをスキャンし、上記の方法のいずれかを使用してファイルのグループをまとめて一覧表示するにはどうすればよいでしょうか??

その後、hashlib の MD5 を介してそれらをハッシュし、重複を見つけたいと考えています。

2 に答える 2