OpenMPI アプリケーションに単純なフォールト トレランスを実装するという課題があります。私たちが抱えている問題は、MPI エラー処理を に設定しているにもかかわらずMPI_ERRORS_RETURN
、ノードの 1 つがクラスターから取り外されたときに、長いハングの後、次の MPI_ 呼び出しで次のエラーが発生することです。
[btl_tcp_endpoint.c:655:mca_btl_tcp_endpoint_complete_connect] connect() failed: Connection timed out (110)
ここからの私の見解は、OpenMPI を使用して 1 つのノードがネットワークからドロップすると、他のすべてのノードで処理を続行することはできないということです。誰かが私のためにこれを確認できますか、または btl_tcp_endpoint エラーを防ぐための方向性を教えてもらえますか?
OpenMPI バージョン 1.6.5 を使用しています。