指定されたディレクトリを再帰的にたどり、見つかった各ファイルのチェックサムを計算する python スクリプトがあります。次に、すべてのファイル パスとそれらの md5 チェックサムをリストするログ ファイルを書き込みます。
順次、15 MB の 50,000 ファイルの場合、これには長い時間がかかります。しかし、私のコンピューターには、実際に使用しているよりもはるかに多くのリソースがあります。スクリプトがより多くのリソースを使用してより高速に実行されるように、アプローチを調整するにはどうすればよいですか?
たとえば、ファイル リストを 3 分の 1 に分割し、それぞれに対してスレッドを実行すると、3 倍のランタイムが得られるでしょうか?
私はスレッド化にあまり慣れていません.
これが私の順次 md5 ループのコードです。
for (root, dirs, files) in os.walk(root_path):
for filename in files:
file_path = root + "/" + filename
md5_pairs.append([file_path, md5file(file_path, 128)])
事前にご協力いただきありがとうございます。