はじめ
に 通常のラップトップで実行されるコードを、MPI を使用してクラスター (HPC) に移植しています。
私が扱っているのは、さまざまなファイル パスを多数のワーカーに送信している、恥ずかしいほど並列の問題です。joblib.dump()
対応する各ファイルには、関数 withを使用して以前に生成された numpy 配列が 1 つ含まれていますlzma compression=2
。
詳細
すべてのファイルは同じディレクトリに保存
されます ファイルリストの生成例joblib.dump()
:
- File1.lzma
- File1.lzma_01.npy.z
- File2.lzma
- File2.lzma_01.npy.z
ワーカーに拡張子が .lmza のファイルへのパス (例: File1.lzma) を渡すと、ワーカーはファイルを読み込めjoblib.load()
ず、エラーが発生します。.lzma_01.npy.z でファイルを渡しても同じです。私の推測では、両方のファイルが必要であり、HPC の場合、ファイルが同じディレクトリにあるのに十分ではないためです (私のラップトップで実行されているコードでは十分であり、ファイルは適切に読み込まれます)。
質問
1) 私の仮説は正しいですか?
2) 両方のファイル パスを に渡す方法はありますjoblib.load()
か?
3) これは欠落している機能ですか? ファイルを再処理して pickle で保存する必要がありますか?
4) 私は完全に間違っていますか?
ありがとう