Torque+MAUI クラスターを使用しています。
現在、クラスターの使用率は最大 10 ノード/40 ノードで、多くのジョブがキューに入れられていますが、開始できません。
を使用して、次の PBS スクリプトを送信しましたqsub。
#!/bin/bash
#
#PBS -S /bin/bash
#PBS -o STDOUT
#PBS -e STDERR
#PBS -l walltime=500:00:00
#PBS -l nodes=1:ppn=32
#PBS -q zone0
cd /somedir/workdir/
java -Xmx1024m -Xms256m -jar client_1_05.jar
ジョブはすぐに R(un) ステータスになりますが、この異常な情報はqstat -n
8655.cluster.local user zone0 run.sh -- 1 32 -- 500:00:00 R 00:00:31
z0-1/0+z0-1/1+z0-1/2+z0-1/3+z0-1/4+z0-1/5+z0-1/6+z0-1/7+z0-1/8+z0-1/9
+z0-1/10+z0-1/11+z0-1/12+z0-1/13+z0-1/14+z0-1/15+z0-1/16+z0-1/17+z0-1/18
+z0-1/19+z0-1/20+z0-1/21+z0-1/22+z0-1/23+z0-1/24+z0-1/25+z0-1/26+z0-1/27
+z0-1/28+z0-1/29+z0-1/30+z0-1/31
sessionId が欠落しており、明らかにスクリプトがまったく実行されていないため、異常な部分は--にあります。つまり、Java プログラムが開始された痕跡はまったくありません。run.sh -- 1 32
この種の奇妙な実行が 5 分間続いた後、ジョブは Q(ueue) ステータスに戻り、再び実行されないように見えます (これを約 1 週間監視しましたが、一番上にキューに入れられても実行されません)。ほとんどの仕事)。
同じジョブを 14 回サブミットしようとし、 でそのノードを監視しましqstat -nた。さまざまなノード番号で 7 つのコピーが正常に実行されましたが、割り当てられているすべてのジョブがz0-1/*この奇妙な起動動作でスタックします。
この問題の解決策を知っている人はいますか?
一時的な回避策として、PBS スクリプトでこれらの奇妙なノードを使用しないように指定するにはどうすればよいですか?