0

「InfiniBand-Stacks」とは何か説明をお願いしたいと思います。これらは最近マシンで変更され、MPI 通信障害が発生し始めました。これが並列ジョブの安定性にどのように影響するかを理解するために、いくつかの情報が必要です。

私が得た実際のエラーメッセージは次のとおりです。

プロセスがキュー ペアの作成に失敗しました。これは通常、デバイスがキュー ペアを使い果たした (接続が多すぎる) か、キュー ペアを割り当てるのに使用できるリソースが不十分である (メモリ不足) ことを意味します。後者は、1) 使用可能なメモリが不足している場合、または 2) デバイスに登録できる物理メモリがこれ以上ない場合に発生する可能性があります。

[connect/btl_openib_connect_oob.c:867:rml_recv_cb] エンドポイント応答開始接続のエラー

4

2 に答える 2

1

通常、ソフトウェアに関連するときに誰かがある種の「スタック」について話しているとき、それらはドライバー/ライブラリ/などを意味します。特定のハードウェアを制御します。たとえば、ネットワークの「スタック」は、アプリケーションと物理ネットワーク インターフェイス カード (NIC) の間のネットワーク ソフトウェアのすべてのレイヤーを意味する場合があります。それはおそらく、この例であなたが意味することです。

もちろん、メモリ割り当てに関連する別の種類のソフトウェア スタックもありますが、これは問題ではありません。

とにかく、アプリケーション (アプリケーションを実行する環境を含む) に何も変更を加えておらず、システム管理者が最近 InfiniBand ドライバーを更新した場合、Open MPI と InfiniBand ライブラリーの間に何らかのバグがある可能性があります。通常はそうではありませんが、Open MPI 担当者に直接質問すればわかるでしょう。そのうちのいくつかは SO でたむろしていますが、ほとんどの場合、電子メールで直接連絡する必要がありますusers [at] open-mpi [dot] org

于 2014-06-19T14:26:18.057 に答える
0

そのメッセージの「openib」は、OpenFabrics OFED が変更され、問題を引き起こしている可能性があることを示唆しています: https://www.openfabrics.org/index.php。それを変更したり、OpenMPI バージョンやアプリケーション コードなどのソフトウェア スタックの他の部分を分離したりできるかどうかを確認してください。

また、IMPI を使用している場合は、インテルにサポートを依頼してください。OpenMPI で確認するという推奨事項は、ユーザー数に基づいた良いものでしたが、Intel 製品ではあまり役に立ちません。

于 2014-07-14T22:44:12.863 に答える