0

32 ノードのクラスターで実行されている UPC-NAS ベンチマーク (256 スレッド用にコンパイル) を取得しようとしています。実行すると、247 スレッドの rsh 接続が確立され、次のようなエラーが発生して終了します。

p0_11350:  p4_error: Child process exited while making connection to remote process on dell16: 0
506 rm_l_237_24446: (26.785156) net_send: corm_11947: (215.339844) net_srm_l_1rm_24412: (26.785156) net_send: could not write to fd=4, errnrrrm_l_127_5013: (121.984375) net_send: could not w    rite to fd=5, errno = 32

問題がどこにあるのか誰でも指摘できますか?

64、128などのより少ないスレッドでは問題なく動作します。

4

1 に答える 1

2

Errno 32 は EPIPE ( #define EPIPE 32 /* Broken pipe */) です。

ファイル記述子の制限に達していることをお勧めします(チェックしてくださいulimit -a)。またはネットワークの制限。またはネットワーク障害。

また、p4は古くからあることにも言及する必要があります。それは何らかの内部制限である可能性があります。p4 の開発は 15 年以上前に停止しました。これは、Debian 安定版に含まれるという点で、一種の非常に安定したコードです。

では、なぜ mpich1 を使用するのですか? 古い mpich2 に移行できますか?

于 2011-03-22T00:05:22.710 に答える