問題タブ [torque]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
43 参照

gcc - toquelib は、静的リンクと動的リンクで異なる動作をします

これは私を困惑させています...私は次のようなコードを持っています:

私がそれをコンパイルすると:

「-static」でコンパイルすると、問題なく動作します。pbs_errno は 0 で、自分の仕事をすることができます。

しかし、「-static」フラグを削除すると、実行時に次のメッセージが表示され始めます。

それで... munge サービス (munged) を開始すると、それについて不平を言うのをやめますが、代わりに pbs_errno=15033 を取得し、クラスターから何も取得できません (自分のことを行います)。

何か案は?

0 投票する
1 に答える
104 参照

java - トルク 4 にヌル外部キーを持つ

外部キーの場合、トルクを取得して 0 の値を null に変換する方法はありますか?

次のスキーマがあります。

そして、私のテーブルはこのSQLで作成されます:

ご覧のとおり、JuserDepend には juser テーブルへのオプションの外部キー (juserRef) がありますが、それを理解するためのトルクが得られないようです。現在、juserRef に null 値を持つ juserDepend オブジェクトを保存する方法がありません。これは、トルクが整数値 0 を使用し、それが有効な外部キーではないため、データベースが文句を言うためです。

私の推奨する解決策は、null が許可されているすべての外部キーに対して、0 を null に単純に変換することです。これは可能ですか?

0 投票する
5 に答える
8828 参照

shell - 完了した PBS または Torque ジョブの情報を取得するにはどうすればよいですか?

完了したジョブの ID があります。実行時間、割り当てられたノードなどの詳細情報を確認するにはどうすればよいですか? SGE にはそのためのコマンド (qacct?) があることを覚えています。しかし、PBS や Torque は見つかりませんでした。ありがとう。

0 投票する
1 に答える
880 参照

environment-variables - PBS スクリプト オプションでの qsub パラメータの使用

PBS オプションで PBS スクリプトに渡したパラメーターを使用したいと考えてい-Nます。たとえば、PBS スクリプトを実行すると、次のようになります。

名前が のジョブを開始しjob_0ます。

以上で、 という名前のジョブjob_{num}。行を使用しようとする#PBS -N job_$numと、出力ファイルを作成できなかったというエラーが表示されます。

私が探しているものを達成する方法はありますか?

0 投票する
2 に答える
419 参照

pbs - Torque+MAUI PBS サブミットされたジョブの異常な起動

Torque+MAUI クラスターを使用しています。

現在、クラスターの使用率は最大 10 ノード/40 ノードで、多くのジョブがキューに入れられていますが、開始できません。

を使用して、次の PBS スクリプトを送信しましたqsub

ジョブはすぐに R(un) ステータスになりますが、この異常な情報はqstat -n

sessionId が欠落しており、明らかにスクリプトがまったく実行されていないため、異常な部分は--にあります。つまり、Java プログラムが開始された痕跡はまったくありません。run.sh -- 1 32

この種の奇妙な実行が 5 分間続いた後、ジョブは Q(ueue) ステータスに戻り、再び実行されないように見えます (これを約 1 週間監視しましたが、一番上にキューに入れられても実行されません)。ほとんどの仕事)。

同じジョブを 14 回サブミットしようとし、 でそのノードを監視しましqstat -nた。さまざまなノード番号で 7 つのコピーが正常に実行されましたが、割り当てられているすべてのジョブがz0-1/*この奇妙な起動動作でスタックします。

  1. この問題の解決策を知っている人はいますか?

  2. 一時的な回避策として、PBS スクリプトでこれらの奇妙なノードを使用しないように指定するにはどうすればよいですか?

0 投票する
1 に答える
792 参照

mpich - 複数のノードでの MPICH の停止

MPICH を使用する MPI fortran アプリケーションがあります。これを使用すると、問題なく起動/実行できます。

上記の例では、クラスターの各ノードに 8 つの CPU がある場合、2 つのノードを要求しています。

問題は、/home がヘッド ノードを介して計算ノードにマウントされている NFS であり、これらのディスクへの I/O が非常に遅いことです。さらに、私のアプリケーションには多くの I/O があり、経験上、ヘッド ノードへの NFS マウント ディスクへの過剰な I/O により、ヘッド ノードがロックされ (これは悪いことです)、完全に応答しなくなる可能性があります。

クラスタ システムには、各ノードの各 JOB 用にローカルにマウントされたディスクがあり (環境変数 TMPDIR を使用してこのディレクトリにアクセスできます)、ジョブをこのディスクで実行する必要があります。これを知っていれば、私の戦略は非常に単純です。

  1. ファイルを /home から $TMPDIR に移動します
  2. $TMPDIR でシミュレーションを開始します
  3. モデルが停止したら、アプリケーションからの出力を /home に戻します

上記のすべての手順を実行し、クラスター システム (PBS/Torque) を 1 つのノードだけに要求する場合、問題はありません。

しかし、複数のノードを尋ねると

次のエラーが発生しました。

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)

[proxy:0:1@compute-4-5.local] HYDU_create_process (/tmp/mvapich2-1.8.1/src/pm/hydra/utils/launch/launch.c:69): ファイル /state/ で execvp エラーが発生しましたpartition1/74127.beach.colorado.edu/myMODEL.a (そのようなファイルやディレクトリはありません)

[proxy:0:0@compute-0-1.local] HYD_pmcd_pmip_control_cmd_cb (/tmp/mvapich2-1.8.1/src/pm/hydra/pm/pmiserv/pmip_cb.c:955): アサート (!closed) に失敗しました

[proxy:0:0@compute-0-1.local] HYDT_dmxu_poll_wait_for_event (/tmp/mvapich2-1.8.1/src/pm/hydra/tools/demux/demux_poll.c:77): コールバックがエラー ステータスを返しました

[proxy:0:0@compute-0-1.local] main (/tmp/mvapich2-1.8.1/src/pm/hydra/pm/pmiserv/pmip.c:226): イベントを待っている demux エンジン エラー

[mpiexec@compute-0-1.local] HYDT_bscu_wait_for_completion (/tmp/mvapich2-1.8.1/src/pm/hydra/tools/bootstrap/utils/bscu_wait.c:70): プロセスの 1 つが異常終了しました。中止する

[mpiexec@compute-0-1.local] HYDT_bsci_wait_for_completion (/tmp/mvapich2-1.8.1/src/pm/hydra/tools/bootstrap/src/bsci_wait.c:23): ランチャーが完了待ちエラーを返しました

[mpiexec@compute-0-1.local] HYD_pmci_wait_for_completion (/tmp/mvapich2-1.8.1/src/pm/hydra/pm/pmiserv/pmiserv_pmci.c:191): ランチャーが完了待ちエラーを返しました

[mpiexec@compute-0-1.local] main (/tmp/mvapich2-1.8.1/src/pm/hydra/ui/mpich/mpiexec.c:405): 完了待ちのプロセス マネージャー エラー

私は何を間違っていますか?

0 投票する
1 に答える
456 参照

hadoop - Maui+Torque クラスタの Hadoop

Torque+Maui のクラスターがあります。Hadoop を同じクラスターにインストールすることは可能ですか? 可能であれば、これを行うことの長所と短所は何ですか?

0 投票する
0 に答える
1765 参照

nfs - Torque error copying output files even though the destination exists

Most of the time our torque jobs run fine. Every now and then we get emails saying:

Now, we have usecp set up correctly, /home is mounted on every machine. And most of the time everything works fine, log files are copied to their destination and there are no error emails. It's only intermittently that we get the error emails. Now the weird thing is, even when we get these error emails, the log files actually exist at the destination we expected them at (eg: /home/someuser/myjob.log). It looks like the log files were copied successfully, except for the email.

What I think may be happening is something like:

  1. The job finishes successfully and copies the log files from /var/spool to the destination on the shared NFS directory successfully.
  2. The log files on the execution host under /var/spool are deleted.
  3. The mom is instructed to run the job exit procedure again (maybe there was a breakdown in communication between the mom and the server and the server didn't think the job exited yet).
  4. The mom tries to copy the log files from /var/spool to the destination on NFS again and fails because they were already deleted in step 2 after the successful copy.

But it's hard to debug because it only happens intermittently.

0 投票する
1 に答える
4058 参照

cluster-computing - ノードからジョブを送信すると、qsub がエラーを返す

Torque/Maui システムで複雑な Fortran MPI アプリケーションを実行しています。アプリケーションを実行すると、巨大な一意の出力 (最大 20 GB) が生成されます。それを避けるために、実行を 5 つの部分に分割する RunJob スクリプトを作成しました。

今のところ、RunJob スクリプトは最初の部分の最後で正しく停止し、正しい出力も生成します。ただし、再起動しようとすると、次のエラー メッセージが表示されます。

qsub: ジョブ実行の UID が正しくありません MSG=ruserok は、compute-0-0.local からのユーザー名/ユーザー名の検証に失敗しました

この問題は、Torque/Maui システムがデフォルトでノードがジョブを送信することを許可していないという事実に起因することを知っています。

実際、これを入力すると:

qmgr -c 'ls' | grep allow_node_submit

私は得た:

allow_node_submit = False

私は管理者アカウントを持っていません。ユーザー アカウントだけです。

私の質問は次のとおりです。

  1. ユーザーである gmgr で allow_node_submit = true を設定することは可能ですか? どのように ?(- そうじゃないと思う)
  2. 質問 1 = false の場合、これを回避する別の方法はありますか? どのように ?

ではごきげんよう。