MPI チェックポイント機能を利用してジョブを保存したいと考えています。https://wiki.mpich.org/mpich/index.php/Checkpointingの提案によると
チェックポイントをトリガーするために、 SIGUSR1 を mpiexec に送信できるはずです (私の場合は mpirun に送信します)。ただし、そうすると、-ckpoint-prefix で指定したチェックポイント ディレクトリに保存されたファイルが表示されません。
これが私の mpirun -info 出力です
HYDRA build details:
Version: 4.1 Update 1
Release Date: 20130522
Process Manager: pmi
Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi
Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs
Checkpointing libraries available: blcr
Demux engines available: poll select
私のコマンドラインは次のとおりです。
mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp
私がシグナルを送る方法はkill -s USR1 1900
、1900がmiprunのpidです。信号を送るたびに、プログラムは単純に終了します。クラッシュはありませんが。誰でもMPIチェックポイントの経験がありますか?