これは、管理者のみが対処できるクラスター固有の問題である可能性がありますが、優先度の低いジョブがあり、優先度の高いジョブが来ると、プロセスが強制終了されます。
優先度の高いジョブが終了すると、優先度の低いジョブが再開されます。ユーザー側で、プロセスを強制終了せずに SIGSTOP または何かを介して最初に開始されたマシンで一時停止する方法はありますか? 残念ながら、チェックポイントはここではオプションではないため、メモリ内のものを破棄せずにジョブを保持できるようにしたいと考えています。
このマシンには ssh があるので、他のすべてが失敗した場合は、目的の動作を得るために本当にずさんなスクリプト ハックを実行したくなるだけです。
1. start the process locally
2. send a SIGSTOP
3. make the job script send SIGCONT and just spin watching the process
4. when the job gets suspended, send a SIGSTOP again
5. when the job gets resumed, it should just send a SIGCONT
しかし、厄介な驚きを避けるために、SGE内ですべてを行いたいと思います