qrsh 呼び出しを介して OGS をスポット インスタンスで使用しています。プログラムを適切に動作させるには、システムのシャットダウン (スポット インスタンスの喪失) が原因でジョブがいつ失敗したかを知る必要があります。
ssh 経由でリモート コマンドを実行し、リモート システムがダウンした場合、返される終了コードは 255 です。
私の問題は、OGS では、qrsh を使用してリモート コマンドを実行し、リモート システムがダウンしたときに返される終了コードが 0 であることです。0 は、「OK、すべて正常」を意味します。したがって、そのコードから、いいえ、大丈夫ではなく、再スケジュールする必要があることを知る方法はありません。
(もちろん、特定のコードを返すようにリモート呼び出しを変更することもできますが、それは標準ではないため、むしろ避けたいと思います。)