これは昨日の私の質問の続きです:ハッシュライブラリ経由で重複ファイルを見つけていますか?
ファイルをファイルサイズにグループ化する必要があることに気付きました。たとえば、1 つのフォルダーに 10 個のファイルがあり、そのうちの 3 個がそれぞれ 50 バイトだった場合、3 個のファイルをグループ化します。
以下を使用して、ファイルのサイズをバイト単位で確認できることがわかりました。
print os.stat(/Users/simon/Desktop/file1.txt).st_size
また:
print os.path.getsize(/Users/simon/Desktop/file1.txt)
これは素晴らしいことです。しかし、os.walk を使用してフォルダーをスキャンし、上記の方法のいずれかを使用してファイルのグループをまとめて一覧表示するにはどうすればよいでしょうか??
その後、hashlib の MD5 を介してそれらをハッシュし、重複を見つけたいと考えています。