ディレクトリツリーをマルチスレッドで再帰的にトラバーサルするための良いアプローチを考えています。
私が今行っているのは、ルート ディレクトリの下のフォルダーを取得し、個別のスレッドで各フォルダーに対して再帰的なトラバーサルを実行することです。
これによりパフォーマンスがかなり改善されましたが、まだ「ロングテール」の問題があります。大きなフォルダーには時間がかかります。
これよりも優れたアプローチは何ですか?
これにはpythonとjavaを使用しています。
ありがとう。
編集:ファイルをメモリにロードする必要はありません。ファイルパスを処理するだけで、ファイルサイズなどのメタデータ情報を取得できます。