Condor でジョブを実行していますが、何らかの理由でジョブのサブセットが実行されますが、完了しないことに気付きました。完了するまでに一定の時間がかかる場合、ジョブを強制終了してから再送信するサブミット ファイルの設定はありますか? これは、 Condor が単にジョブを強制終了するのではなく、ジョブを再送信することを除いて、アイドル状態のジョブに対する Condor Timeoutの質問に似ています。
ありがとう!
Condor でジョブを実行していますが、何らかの理由でジョブのサブセットが実行されますが、完了しないことに気付きました。完了するまでに一定の時間がかかる場合、ジョブを強制終了してから再送信するサブミット ファイルの設定はありますか? これは、 Condor が単にジョブを強制終了するのではなく、ジョブを再送信することを除いて、アイドル状態のジョブに対する Condor Timeoutの質問に似ています。
ありがとう!
マシン クラス追加ファイルで KILL トランジション式を使用できます ( Condor ユーザー マニュアル)。何かのようなもの:
START = True
...
+MaxJobExecutionTime = xxx #seconds
KILL = $(ActivityTimer) > MaxJobExecutionTime
このように、マシンは MaxExecutionTime よりも時間がかかるジョブを強制終了します。その後、Condor はジョブを再試行します。