回答に関してジョナサンに同意し、クラスター管理の観点からいくつかの点を追加します。
時々クラスター管理に没頭する人として、大規模なクラスターで InfiniBand を調整するのは簡単な作業ではないことを付け加えておきます。OFED スタックがカーネルに適切に配置されていることを確認する必要があります。ハードウェアに障害がなく、スイッチが持続モードでパフォーマンスの問題なく期待どおりに動作しており、アプリケーションが InfiniBand トポロジなどに正しくマップされていること。
OpenMPI スタックは、MPICH/MVAPICH とはかなり異なります。OpenMPI コンポーネント アーキテクチャは、モノリシックな MPICH/MVAPICH のアーキテクチャよりも、問題の発見とデバッグが容易であることがわかりました。
ベンダーといえば、 MPICHはアルゴンヌの MCS 部門から提供されていることを思い出してください。
更新:バージョン 3.1 以降、MPICH は ib ネットワーク モジュールを介して OFED InfiniBand をサポートします。3.2 MPICH 以降、Mellanox MXM インターフェイスもサポートされます。
MVAPICHは、オハイオ州の CS&E 部門の人々によって MPICH ソースの上に構築されています。
多くのハードウェア ベンダーは、MPICH または MVAPICH の上に構築して、それぞれのハードウェアに InfiniBand サポートを提供しています。その一例がIntel MPIです。もう 1 つはVoltaire MPIです。
OpenMPIは、Cisco などの InfiniBand スイッチ ベンダーがサポートする複数のチームによって開発されています。
HP MPIは、現在 Platfrom から入手できる汎用クラスター向けのもう 1 つの非常に優れた MPI 実装でした。