2

InfiniBand で MPI ジョブを実行すると、次のような摩耗が発生します。トルクマネージャーを使用しています。

--------------------------------------------------------------------------
WARNING: It appears that your OpenFabrics subsystem is configured to only
allow registering part of your physical memory.  This can cause MPI jobs to
run with erratic performance, hang, and/or crash.

This may be caused by your OpenFabrics vendor limiting the amount of
physical memory that can be registered.  You should investigate the
relevant Linux kernel module parameters that control how much physical
memory can be registered, and increase them to allow registering all
physical memory on your machine.

See this Open MPI FAQ item for more information on these Linux kernel module
parameters:

http://www.open-mpi.org/faq/?category=openfabrics#ib-locked-pages

Local host:              host1

Registerable memory:     65536 MiB

Total memory:            196598 MiB

Your MPI job will continue, but may be behave poorly and/or hang.

--------------------------------------------------------------------------

警告メッセージのリンクを読みましたが、これまでに行ったことは次のとおりです。

  1. に追加options mlx4_core log_num_mtt=20 log_mtts_per_seg=4/etc/modprobe.d/mlx4_en.confます。
  2. 次の行が書かれていることを確認してください/etc/security/limits.conf
    • * soft memlock unlimited
    • * hard memlock unlimited
  3. session required pam_limits.soに追加/etc/pam.d/sshd
  4. ulimit -c unlimitedがコメント解除されていることを確認してください/etc/init.d/pbs_mom

足りないものを見つけるのを手伝ってくれる人はいますか?

4

1 に答える 1

3

あなたのmlx4_coreパラメータは、の登録2^20 * 2^4 * 4 KiB = 64 GiBのみを許可します。ノードごとに 192 GiB の物理メモリがあり、少なくとも 2 倍の登録可能なメモリを持つことが推奨されることを考えるとlog_num_mtt、23 に設定する必要があります。これにより、制限が 512 GiB に増加します。 RAMの量。必ずノードを再起動するか、カーネル モジュールをアンロードしてから再ロードしてください。

ulimit -lまた、ロックされたメモリの制限を検証し、そのような制限がないことを確認するために実行する単純な Torque ジョブ スクリプトを送信する必要があります。ulimit -c unlimitedロックされたメモリの量の制限を削除するのではなく、コア ダンプ ファイルのサイズの制限を削除することに注意してください。

于 2013-07-20T10:14:14.477 に答える