condor - アイドルジョブの Condor タイムアウト

Question

コンドルクラスターでジョブを実行していますが、一部のジョブはアイドル状態でハングアップし、終了どころか、まったく開始されないように見えます。手動で実行するcondor_wait -wait n logfile以外にcondor_rm、ハングしたジョブを終了するためのより適切な (そして自動的に組み込まれている) 方法はありますか?

逆に、これらのジョブはダグマンにあるため、後のジョブを実行できるように、ダグマンでジョブをタイムアウトにする方法はありますか?

score 4 · Accepted Answer

アイドル状態が長すぎる (この例では 24 時間) 後にジョブを自動的に削除するには、次の 2 つの方法があります。

ジョブのサブミットファイルに次の内容を入力します。

period_remove = JobStatus == 1 && CurrentTime-EnteredCurrentStatus > 3600*24
または、サブミットマシンのコンドル構成ファイルに次のように記述します。

SYSTEM_PERIODIC_REMOVE = JobStatus == 1 && CurrentTime-EnteredCurrentStatus > 3600*24

もちろん、ジョブがアイドル状態のままである理由を理解しておくことをお勧めします。そのために、役立つことがあります。condor_q -analyze jobid

condor - アイドル ジョブの Condor タイムアウト

1 に答える 1

Related

Reference

condor - アイドルジョブの Condor タイムアウト