0

私は並列アプリケーションを実行していますが、いくつかのコアから次のメッセージが表示され、突然中止されるまで適切に実行されます。

[n18:mpi_rank_91][handle_cqe] Send desc error in msg to 103, wc_opcode=0
[n18:mpi_rank_91][handle_cqe] Msg from 103: wc.status=12, wc.wr_id=0xbc8d140, wc.opcode=0, vbuf->phead->type=0 = MPIDI_CH3_PKT_EAGER_SEND
[n18:mpi_rank_91][handle_cqe] src/mpid/ch3/channels/mrail/src/gen2/ibv_channel_manager.c:587: [] Got completion with error 12, vendor code=0x81, dest rank=103 : Numerical result out of range (34)

MPIの使用/デバッグは初めてです。私の検索では明確な結論が得られませんでした (つまり、https://software.intel.com/en-us/node/535587 )。上記のマッサージは何を指していますか? このようなメッセージを含む並列 (Fortran) コードのバグを見つける方法は?

フォローアップの質問: 私のアプリケーションに、ノードの一部が時間を費やしている内部の重いブロックがある場合、タスクを終了したノードは、Infiniband輻輳に達する前にインターフェースで遅いブロックをどれくらい待つことができますか? ?

4

0 に答える 0