0

8 台のマシンで MPI プログラムを実行しようとしていますが、エラーが発生します。

connect to address 127.0.0.1 port 544: Connection refused
Trying krb4 rsh...
connect to address 127.0.0.1 port 544: Connection refused
trying normal rsh (/usr/bin/rsh)
lagrid02: Connection refused

machinefile オプションを指定して実行すると、lagrid03lagrid03: No route to hostがマスター ノードに接続された隣接ノードであるというエラーが表示されます。

これをどのように修正すればよいですか?

4

2 に答える 2

0

最初のエラーについてですが、rsh は (すべての) マシンで実行されていますか? 別のマシンでジョブを開始する前に、rsh またはパスワードなしの ssh を構成する必要があります (そして、mpi ジョブ ランチャーに ssh を使用するように依頼します)。

2 番目のエラーは、現在のネットワーク構成ではマシン lagrid03 に到達する方法がないことを示しています。lagrid03 の IP アドレスを含む /etc/hosts エントリがあると思いますが、そのネットワークで構成されたインターフェイスがありません。より詳細な回答については、ネットワーク構成に関する詳細を投稿する必要があります。

于 2011-10-01T00:52:36.023 に答える
0

問題は認証に関するものです。/etc/pam.d/rshファイルに移動して rlogin と rsh を先頭に移動し、このように表示すると、問題なく動作します。

/* For root login to succeed here with pam_securetty, "rsh" must be listed in /etc/securetty.*/

auth required pam_nologin.so

auth required pam_securetty.so

auth required pam_env.so

auth required pam_rhosts_auth.so

account include system-auth

session optional pam_keyinit.so force revoke
session include system-auth
于 2014-03-17T14:48:48.857 に答える