RDMA の欠如は、ネットワークの問題の理由 ( source1、source2 ) ですか?たとえば、ifconfig は eth1-avahi を表示します (リンクを参照)? 2 つの A8 ノードで OpenFOAM を実行したいのですが、実行する必要があります。
/etc/init.d/networking 再起動
頻繁に eth0 だけを有効にします。そうしないと、mpi は間違った IP アドレスを使用して通信します。たとえば、10..... ではなく 169... です。
$bash> ifconfig
eth0 Link encap:Ethernet HWaddr 00:0d:3a:20:3f:33
inet addr:10.0.0.4 Bcast:10.0.1.255 Mask:255.255.254.0
eth1 Link encap:Ethernet HWaddr 00:15:5d:33:ff:ad
inet6 addr: fe80::215:5dff:fe33:ffad/64 Scope:Link
eth1:avahi Link encap:Ethernet HWaddr 00:15:5d:33:ff:ad
inet addr:169.254.9.198 Bcast:169.254.255.255 Mask:255.255.0.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
次のように Infiniband で mpirun を実行すると:
mpirun --host localhost --mca btl openib,self,tcp -np $nProcs
それは本当に VM 上の Infiniband ですか?