0

MPI チェックポイント機能を利用してジョブを保存したいと考えています。https://wiki.mpich.org/mpich/index.php/Checkpointingの提案によると

チェックポイントをトリガーするために、 SIGUSR1 を mpiexec に送信できるはずです (私の場合は mpirun に送信します)。ただし、そうすると、-ckpoint-prefix で指定したチェックポイント ディレクトリに保存されたファイルが表示されません。

これが私の mpirun -info 出力です HYDRA build details: Version: 4.1 Update 1 Release Date: 20130522 Process Manager: pmi Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs Checkpointing libraries available: blcr Demux engines available: poll select

私のコマンドラインは次のとおりです。

mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp

私がシグナルを送る方法はkill -s USR1 1900、1900がmiprunのpidです。信号を送るたびに、プログラムは単純に終了します。クラッシュはありませんが。誰でもMPIチェックポイントの経験がありますか?

4

1 に答える 1

0

私はそれを理解したと思います。USR1 を mpirun に送信しましたが、代わりに mpiexec.hydra に送信する必要があります。一部のオンライン記事では、mpirun と mpiexec は同じものであると書かれていますが。

于 2016-04-04T03:15:25.847 に答える