1

Torque+MAUI クラスターを使用しています。

現在、クラスターの使用率は最大 10 ノード/40 ノードで、多くのジョブがキューに入れられていますが、開始できません。

を使用して、次の PBS スクリプトを送信しましたqsub

#!/bin/bash
#
#PBS -S /bin/bash
#PBS -o STDOUT
#PBS -e STDERR
#PBS -l walltime=500:00:00
#PBS -l nodes=1:ppn=32
#PBS -q zone0

cd /somedir/workdir/
java -Xmx1024m -Xms256m -jar client_1_05.jar

ジョブはすぐに R(un) ステータスになりますが、この異常な情報はqstat -n

8655.cluster.local      user       zone0    run.sh         --      1     32    --  500:00:00 R  00:00:31
z0-1/0+z0-1/1+z0-1/2+z0-1/3+z0-1/4+z0-1/5+z0-1/6+z0-1/7+z0-1/8+z0-1/9
+z0-1/10+z0-1/11+z0-1/12+z0-1/13+z0-1/14+z0-1/15+z0-1/16+z0-1/17+z0-1/18
+z0-1/19+z0-1/20+z0-1/21+z0-1/22+z0-1/23+z0-1/24+z0-1/25+z0-1/26+z0-1/27
+z0-1/28+z0-1/29+z0-1/30+z0-1/31

sessionId が欠落しており、明らかにスクリプトがまったく実行されていないため、異常な部分は--にあります。つまり、Java プログラムが開始された痕跡はまったくありません。run.sh -- 1 32

この種の奇妙な実行が 5 分間続いた後、ジョブは Q(ueue) ステータスに戻り、再び実行されないように見えます (これを約 1 週間監視しましたが、一番上にキューに入れられても実行されません)。ほとんどの仕事)。

同じジョブを 14 回サブミットしようとし、 でそのノードを監視しましqstat -nた。さまざまなノード番号で 7 つのコピーが正常に実行されましたが、割り当てられているすべてのジョブがz0-1/*この奇妙な起動動作でスタックします。

  1. この問題の解決策を知っている人はいますか?

  2. 一時的な回避策として、PBS スクリプトでこれらの奇妙なノードを使用しないように指定するにはどうすればよいですか?

4

2 に答える 2

1

これらのノードに何か問題があるようです。1 つの解決策は、動作していないノードをオフラインにしてpbsnodes -o <node name>、クラスターが引き続き動作できるようにすることです。ジョブの保留を解除する必要がある場合があります。releasehold ALLマウイでこれを達成するために走ることができると私は信じています。

問題が解決したら、それらのノードのログ (pbs_mom ログと syslog から開始) を調査し、何が問題なのかを突き止めます。問題を見つけて修正したら、ノードをオンラインに戻すことができますpbsnodes -c <node_name>。これらの状況を事前に検出して処理するために、いくつかのノード ヘルス スクリプトの設定を検討することもできます。

于 2014-07-10T17:06:13.243 に答える
0

ユーザーの場合は、管理者に連絡し、その間にこの回避策を使用してジョブを実行してください。

  1. pbsnodes空きノードと正常なノードを確認するために使用します

  2. PBS ディレクティブの変更#PBS -l nodes=<freenode1>:ppn=<ppn1>+<freenode2>:ppn=<ppn2>+...

  3. を使用してジョブを送信しますqsub

于 2014-07-10T22:31:05.843 に答える