問題タブ [infiniband]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
1079 参照

centos - インフィニバンド + KVM

数日間のかなり長い検索にもかかわらず、次のことに関する良い情報を見つけることができませんでした-私はこの問題を最初に抱えているとは思いません:私たちはMATLAB、MPI、およびInfinibandを備えた高性能クラスターに取り組んでいます. この設定は、ここ数年非常にうまく機能しています。しかし、柔軟性を高めて保守を容易にするために、計算ノードを KVM で仮想化することを検討しています。

現在、Infiniband を自分の仮想マシンに「組み込む」という大きな問題があります。PCI インターフェイスをパススルーするだけでなく、ホスト上のマシンに仮想的に接続できるイーサネット ブリッジに対応するものを構築したいと考えています。これについて話しているソースをいくつか見つけましたが、IBのインストール/構成方法はわかりません。誰かがこれを行う方法を知っていますか?

前もって感謝します!

0 投票する
2 に答える
1736 参照

mpi - mpi + infiniband 接続が多すぎる

それぞれ 64 コアの 4 つのノードを使用して、クラスターで MPI アプリケーションを実行しています。アプリケーションは、all to all 通信パターンを実行します。

次のようにアプリケーションを実行すると、問題なく実行されます。

$: mpirun -npernode 36 ./アプリケーション

ノードごとにさらにプロセスを追加すると、アプリケーションがクラッシュします。

$: mpirun -npernode 37 ./アプリケーション

EDITは、すべての通信パターンにすべてのソース コードを追加しました。

クラスター ユーザーとしてできること、またはクラスター管理者にできるアドバイスはありますか?

0 投票する
0 に答える
252 参照

azure - Windows Azure は Linux VM で Infiniband をサポートしていますか?

  1. RDMA の欠如は、ネットワークの問題の理由 ( source1source2 ) ですか?たとえば、ifconfig は eth1-avahi を表示します (リンクを参照)? 2 つの A8 ノードで OpenFOAM を実行したいのですが、実行する必要があります。

    /etc/init.d/networking 再起動

頻繁に eth0 だけを有効にします。そうしないと、mpi は間違った IP アドレスを使用して通信します。たとえば、10..... ではなく 169... です。

  1. 次のように Infiniband で mpirun を実行すると:

    mpirun --host localhost --mca btl openib,self,tcp -np $nProcs

それは本当に VM 上の Infiniband ですか?

0 投票する
1 に答える
145 参照

java-7 - Sockect ダイレクト プロトコルと FTP Java ライブラリ

現在、私はApache の Commons Net ライブラリを使用して、ある AIX サーバーから別のサーバーに FTP プロトコルを介していくつかのアプリケーション ファイル (2KB から 200MB) を転送しています。スケーラブルな I/O 相互接続として機能する、高性能、低遅延、信頼性の高いスイッチ ファブリックを提供するInfinibandまたはOFED (OpenFabrics Enterprise Distribution)を介したSDP (Socket Direct Protocol)など、別のプロトコルが存在することを知りました。Java 7 以降では、このプロトコルの SDP 用 Ja​​va API が提供されています。

FTP から SDP への移行の重要性と課題について詳しく説明できる人はいますか?

0 投票する
1 に答える
110 参照

infiniband - インフィニバンド ibv_asyncwatch の使用法

libibverbs-utils パッケージの一部として ibv_asyncwatch を確認できます。ユースケースを知りたい。これを使用して非同期イベントを監視する方法など。誰かが例を挙げてこれについて詳しく説明できますか?そのオプションは何ですか?

0 投票する
0 に答える
659 参照

c++ - RDMA アトミック操作のエラー

RDMA アトミック操作 (FETCH_ADD および CMP_AND_SWAP) の実行に問題があります。アトミック RDMA 要求を送信しようとすると、ibv_post_send() 関数が失敗し、Errno が「無効な引数」に設定されます。RDMA READ/WRITE ではそのような問題はありません。

次のようにメモリアドレスを登録します。

次のようにキューのペアを作成します。

そして最後に、次のようにアトミック オペコードを使用して RDMA 操作を送信します。

PS librdmacm を使用しているため、INIT と RTR および RTS の間のキュー ペアの遷移は自動的に行われるため、手動で を設定することはできずqp_attr->qp_access_flags、. しかし、私は libibcm にアトミック操作で小さなコードを書き、キューを手動で移行するときにそれらの属性を設定しました。それでも、運が悪い。qp_attr->max_rd_atomicqp_attr->max_dest_rd_atomicibv_modify_qp()

0 投票する
1 に答える
589 参照

windows - Windows 用 RDMA CM

Linux( http://linux.die.net/man/7/rdma_cm -- librdmacm )、およびib動詞(libibverbs)にあるRDMA Communication Managerに相当するWindowsがあるかどうかは誰にもわかりませんか?

これらのライブラリはどちらも、Linux ディストリビューションに Infiniband ハードウェアのドライバーをインストールするときに利用できます。しかし、Windows ではどうでしょうか?

Windows Network Direct について読んだことがありますが、上記の Linux ライブラリについては既によく知っているので、(可能であれば) Windows で同等のものを使用したいと考えています。

Linux ノード間のデータ転送 (RDMA 書き込み) を確立しましたが、Windows ノードから Linux ノードへ RDMA データを転送する必要がありますが、現時点ではどのルートをたどればよいかわかりません....

Windows Network Direct が IB 動詞/RDMA CM と互換性があるかどうかを判断するにはどうすればよいですか?

私は動詞仕様が両方のプラットフォームに実装されるという印象を受けました...!

敬具

0 投票する
1 に答える
499 参照

fortran - MPI_Finalize が正しく動作しない、孤立したプロセス

基本的に「初期化、マスターからスレーブへの2回の送信、スレーブでの2回の受信、コピー/貼り付けのための一連のシステムコールの実行、コードの整理、mpiファイナライズ」というかなり単純なMPIプログラムがあります。

これは簡単に思えますが、mpi_finalize が正しく機能していません。以下は、プログラムのスナップショットです。システムのコピー/貼り付け/外部コードの呼び出しはすべて省略されています。これらのコードは、「do codish stuff」タイプのステートメントにまとめられています。

今私が見ている問題は、「got here4」、「g​​ot here5」、および「got here6」ステートメントの周りで発生しています。「got here4」と「got here5」に対応するランクを持つ適切な数の印刷ステートメントを取得します。つまり、マスターとすべてのスレーブ (ランク 0 および他のすべてのランク) は、バリア呼び出しを介してバリア呼び出しに到達し、MPI_FINALIZE に到達し、それらすべての ierr に対して 0 を報告しました。しかし、"got here6" になると、MPI_FINALIZE の後で、あらゆる種類の奇妙な動作が発生します。「got here6」が予想よりも 1 つ少ない場合もあれば、6 つ少ない場合もありますが、プログラムは永久にハングアップし、1 つ (または複数) の計算ノードに孤立したプロセスが残ります。

NFSサーバーがインフィニバンド(nfs-rdma)で共有されているインフィニバンドバックボーンマシンでこれを実行しています。MPI_BARRIER 呼び出しがどのように正常に機能するかを判断しようとしていますが、MPI_FINALIZE はランダムな孤立した実行になります (同じノードでも、毎回同じ数の孤立したものでもありません)。cp、mv、./run_some_code、cp、mv へのさまざまなシステム コールに関連していると推測していますが、これらすべてがかなり迅速に発生するため、infiniband の速度にも関連している可能性があるかどうかはわかりませんでした。私も間違った直感を持っている可能性があります。考えている人はいますか?参考になればコード全体を掲載することもできますが、この要約版はそれを捉えていると思います。ファームウェア 2.9.1000 を実行する Mellanox アダプターを使用して、 ifort 15.0.2 に対してコンパイルされた openmpi1.8.4 を実行しています。

助けてくれてありがとう。

アップデート:

リクエストごとに、「MPI_Abort」を入れて、次を取得します。

ただし、コードはそれ以外の場合は正しく実行されます (すべての正しい出力ファイルともの)。

0 投票する
2 に答える
772 参照

c++ - InfiniBand を備えた Windows Azure A8 ノードで、あるノードから N バイトを送信し、別のノードで受信する方法をサポートしていますか?

40Gbit/s ネットワークの InfiniBand の約束が気に入っています。私のニーズは、1 つのコア ノード + スレーブの MPI モデルに対応していません。可能であれば、MPI をまったく使用したくないと考えています。シンプルな接続/送信/受信/クローズ (またはその非同期バージョン) API が必要です。まだMS Azureのドキュメントや Microsoft HPC Packのドキュメントを読んでも、InfiniBandをアプリケーションのトランスポートとして使用できるC/C++または.NetのAPIが見つかりません。だから私の質問は簡単です InfiniBand を使用して他のノードに接続し、それらにデータパケットを送信して相手側で受信する方法は? (一部のソケット API などと同様)

Azure の ND-SPI または Azureの DAPL-ND 接続/送信/受信/終了のチュートリアルは、私が探しているものです。

0 投票する
1 に答える
445 参照

infiniband - Soft-RoCEのベンチマークツール

私は SoftRoCE を初めて使用します。システムに OFED-1.5.2-rxe をインストールしました。現在、カーネル バージョン 3.0.0+ を使用しています。

SoftRoCE 用の特定のベンチマーク ツールはありますか。また、opensm は SoftRocE に必須ですか? rdma_bw を実行しようとしているときに

vvdn@vvdn:~$ sudo rdma_bw 192.168.1.1

10581: | port=18515 | ib_port=1 | size=65536 | tx_depth=100 | sl=0 | iters=1000 | duplex=0 | cma=0 | 10581:main: Local lid 0x0 detected. Is an SM running? vvdn@vvdn:~$