私はコンピューティングクラスターでいくつかの実験を行っています。私のアルゴリズムには 2 つのステップがあります。最初のものは、2番目のステップで使用されるいくつかのファイルに出力を書き込みます。依存関係は 1 から n であり、1 つの step2 プログラムが n step1 プログラムの出力を必要とすることを意味します。クラスター リソースを消費せず、ヘッド ノードをビジー状態に保つ方法もわかりません。私の現在の解決策は次のとおりです。
送信スクリプト (これはヘッド ノードで実行されます)
for different params, p:
run step 1 with p
sleep some time based on the an estimate of how much step 1 takes
for different params, q:
run step 2 with q
ステップ 2 アルゴリズム (これは計算ノードで実行されます)
while files are not ready:
sleep a few minutes
do the step 2
これを行うより良い方法はありますか?