InfiniBand で MPI ジョブを実行すると、次のような摩耗が発生します。トルクマネージャーを使用しています。
--------------------------------------------------------------------------
WARNING: It appears that your OpenFabrics subsystem is configured to only
allow registering part of your physical memory. This can cause MPI jobs to
run with erratic performance, hang, and/or crash.
This may be caused by your OpenFabrics vendor limiting the amount of
physical memory that can be registered. You should investigate the
relevant Linux kernel module parameters that control how much physical
memory can be registered, and increase them to allow registering all
physical memory on your machine.
See this Open MPI FAQ item for more information on these Linux kernel module
parameters:
http://www.open-mpi.org/faq/?category=openfabrics#ib-locked-pages
Local host: host1
Registerable memory: 65536 MiB
Total memory: 196598 MiB
Your MPI job will continue, but may be behave poorly and/or hang.
--------------------------------------------------------------------------
警告メッセージのリンクを読みましたが、これまでに行ったことは次のとおりです。
- に追加
options mlx4_core log_num_mtt=20 log_mtts_per_seg=4
し/etc/modprobe.d/mlx4_en.conf
ます。 - 次の行が書かれていることを確認してください
/etc/security/limits.conf
* soft memlock unlimited
* hard memlock unlimited
session required pam_limits.so
に追加/etc/pam.d/sshd
ulimit -c unlimited
がコメント解除されていることを確認してください/etc/init.d/pbs_mom
足りないものを見つけるのを手伝ってくれる人はいますか?