修理済み:
うーん、これは少しばかげているようです。top が正しく表示されていないことが判明し、プログラムは実際には引き続き実行されます。CPU 時間が大きくなりすぎて表示できなくなったのではないでしょうか。いずれにせよ、プログラムは正常に動作しているようで、この質問全体は意味がありませんでした。
ありがとう(そしてばかげた質問でごめんなさい)。
元の質問:
Ubuntu サーバー 10.04.3 を実行しているコンピューターでシミュレーションを実行しています。短い実行 (<24 時間) は正常に実行されますが、長い実行は最終的に失速します。ストールとは、プログラムが CPU 時間を取得できなくなったものの、すべての情報をメモリ内に保持していることを意味します。これらのシミュレーションを実行するために、プログラムを SSH および nohup し、出力をファイルにパイプします。
その他の情報:
システムの RAM が不足しているわけではありません。プログラムは、完了するまでハード ドライブの読み取りまたは書き込みを行う必要はありません。計算は完全にメモリ内で行われます。停止後も PID があるため、プログラムは強制終了されません。私はopenmpを使用していますが、プロセスの最大数を増やし、最大時間は無制限です。ARPACK fortran ライブラリを使用して、行列の最大固有値を見つけています。
この動作の原因や、現在停止しているプログラムを再開する方法について何か考えはありますか?
ありがとう