コンドル クラスターでジョブを実行していますが、一部のジョブはアイドル状態でハングアップし、終了どころか、まったく開始されないように見えます。手動で実行するcondor_wait -wait n logfile
以外にcondor_rm
、ハングしたジョブを終了するためのより適切な (そして自動的に組み込まれている) 方法はありますか?
逆に、これらのジョブはダグマンにあるため、後のジョブを実行できるように、ダグマンでジョブをタイムアウトにする方法はありますか?
コンドル クラスターでジョブを実行していますが、一部のジョブはアイドル状態でハングアップし、終了どころか、まったく開始されないように見えます。手動で実行するcondor_wait -wait n logfile
以外にcondor_rm
、ハングしたジョブを終了するためのより適切な (そして自動的に組み込まれている) 方法はありますか?
逆に、これらのジョブはダグマンにあるため、後のジョブを実行できるように、ダグマンでジョブをタイムアウトにする方法はありますか?
アイドル状態が長すぎる (この例では 24 時間) 後にジョブを自動的に削除するには、次の 2 つの方法があります。
ジョブのサブミット ファイルに次の内容を入力します。
period_remove = JobStatus == 1 && CurrentTime-EnteredCurrentStatus > 3600*24
または、サブミット マシンのコンドル構成ファイルに次のように記述します。
SYSTEM_PERIODIC_REMOVE = JobStatus == 1 && CurrentTime-EnteredCurrentStatus > 3600*24
もちろん、ジョブがアイドル状態のままである理由を理解しておくことをお勧めします。そのために、役立つことがあります。condor_q -analyze jobid