0

OpenMPI アプリケーションに単純なフォールト トレランスを実装するという課題があります。私たちが抱えている問題は、MPI エラー処理を に設定しているにもかかわらずMPI_ERRORS_RETURN、ノードの 1 つがクラスターから取り外されたときに、長いハングの後、次の MPI_ 呼び出しで次のエラーが発生することです。

[btl_tcp_endpoint.c:655:mca_btl_tcp_endpoint_complete_connect] connect() failed: Connection timed out (110)

ここからの私の見解は、OpenMPI を使用して 1 つのノードがネットワークからドロップすると、他のすべてのノードで処理を続行することはできないということです。誰かが私のためにこれを確認できますか、または btl_tcp_endpoint エラーを防ぐための方向性を教えてもらえますか?

OpenMPI バージョン 1.6.5 を使用しています。

4

1 に答える 1

3

MPI_ERRORS_RETURN コード パスは、Open MPI では十分にテストされていません (おそらく十分に実装されていません)。それらは単に優先事項ではなかったため、この分野で実際に多くの作業を行ったことはありません.

ごめん。

于 2013-10-27T15:04:19.377 に答える