java - ディレクトリツリーを再帰的にマルチスレッド化するための良いアプローチは何でしょうか?

Question

ディレクトリツリーをマルチスレッドで再帰的にトラバーサルするための良いアプローチを考えています。

私が今行っているのは、ルートディレクトリの下のフォルダーを取得し、個別のスレッドで各フォルダーに対して再帰的なトラバーサルを実行することです。

これによりパフォーマンスがかなり改善されましたが、まだ「ロングテール」の問題があります。大きなフォルダーには時間がかかります。

これよりも優れたアプローチは何ですか？

これにはpythonとjavaを使用しています。

ありがとう。

編集:ファイルをメモリにロードする必要はありません。ファイルパスを処理するだけで、ファイルサイズなどのメタデータ情報を取得できます。

score 0 · Accepted Answer

ディレクトリノードの深さとサイズがわからないため、これは間違ったアプローチです。知っていたとしても、ディレクトリツリーの反復自体は、複数のスレッドで実行しても高速化されません。やりたいことは、単一のスレッドでディレクトリを反復処理し、ファイル/ディレクトリで行っている作業をExecutorServiceに送信することです。エグゼキュータも参照してください

score 0 · Accepted Answer

マルチスレッドの質問に厳密に答えると、再帰で新しいスレッドをいつスピンオフするかについて、いくつかのルールを考え出すことができます。Python 風の疑似コードで観察します。

depth = 0
while true:
    subDirCount = countSubDirs()
    if subDirCount = 0:
        break
    else:
        if depth % 2 = 0:
            for dir in subDirs:
                newThread(dir)
        else:
            for dir in subDirs:
                recurse(dir)

現在、このソリューションは、スレッドセーフで発生する恐ろしい時間を処理しません。これは、おかしな非同期リターンの設定としては非常に優れています。

java - ディレクトリツリーを再帰的にマルチスレッド化するための良いアプローチは何でしょうか?

2 に答える 2

Related

Reference