1

次の行を添付しました

periodic_remove = CurrentTime-EnteredCurrentStatus > 1200

コンドルサブファイルに、ジョブは 20 分後に中止されます。ただし、このサブファイルは DAG ファイルの一部であり、ジョブが中止されるため、DAG ファイルは後続のジョブに移動しません。

スケジューラが後続のジョブを開始するように、このタイムアウト コードを DAG スケジューラの目には成功のように動作させる方法はありますか?

1回目の編集

答えについてのヒントを見つけたかもしれないと思います:

これらの式を使用して、多くの一般的なアクションを自動化できます。たとえば、ジョブが 1 時間以上実行されることはなく、1 時間以上実行されている場合は、何かが間違っている可能性があり、調査が必要になることがわかっているとします。不必要にクラスターでジョブを実行したままにする代わりに、Condor はサブミット ファイルに以下を追加してジョブを保留にすることができます。

periodic_hold = (ServerStartTime - JobStartDate) > 3600

または、セグメンテーション フォールトが時々発生するが、同じデータに対して再度実行すると、正常に終了する可能性が高いことがわかっているジョブがあるとします。この動作は、送信ファイルに次の行を追加することで取得できます。

on_exit_remove = (ExitBySignal == True) && (ExitSignal != 11)

上記の式は、ジョブがシグナルによって終了し、そのシグナル番号が 11 (セグメンテーション違反を表す) の場合、ジョブをキューから出させません。それ以外のジョブ終了の場合は、キューを離れます。

この情報は、こちらの全体的なコンドル チュートリアルの一部です。 +Scheduler/15.2+Using+Condor/

これが正しいトラックかどうかは誰でも確認できますか?

4

1 に答える 1