2

CentOS 7 でロックされたページで使用可能なメモリの量に問題があります。slurmでノードを割り当てた後、MPI (mvapich) でジョブを起動すると、次のエラーが発生します。

Fatal error in MPI_Init:
Other MPI error, error stack:
MPIR_Init_thread(514).......:
MPID_Init(359)..............: channel initialization failed
MPIDI_CH3_Init(401).........:
MPIDI_CH3I_RDMA_init(221)...:
rdma_setup_startup_ring(410): cannot create cq

ロックされたメモリが不足しているためと思われます。ulimit -aただし、次のように返されるため、無制限に設定されているようです。

core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 254957
max locked memory       (kbytes, -l) unlimited
max memory size         (kbytes, -m) unlimited
open files                      (-n) 1024
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 8192
cpu time               (seconds, -t) unlimited
max user processes              (-u) 4096
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited

mpirunsudoで起動すると動作しています。

4

1 に答える 1

4

この問題は、 max locked memoryの適切な値を取得しなかった slurm に起因していました。unlimitedではなく64salloc -N ulimit -lを返しました。

解決策は、/etc/ init.d /slurm に次の行を追加することです。

ulimit -l unlimited 

次に、スラームを停止して再開します。

sudo /etc/init.d/slurm stop
sudo /etc/init.d/slurm start
于 2016-01-09T08:34:09.873 に答える