“pbs”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

4587 参照

parallel-processing - PBS、標準出力を更新

Torque/PBS ジョブを長時間実行しており、出力を監視したいと考えています。ただし、ログファイルはジョブの終了後にのみコピーされます。PBS に更新するよう説得する方法はありますか?

2012-05-10T03:17:01.640

0 投票する

2 に答える

14024 参照

mpi - open-mpi/mpi-run での共有ライブラリのロード

mpi run を使用してトルクスケジューラを使用してプログラムを実行しようとしています。私のpbsファイルでは、すべてのライブラリを

それでもエラーが発生します

エラーは、すべてのノードで設定されていない変数 LD_LIBRARY_PATH にあると思います。どうすれば機能しますか？

mpi pbs torque

2012-07-06T19:04:10.567

0 投票する

2 に答える

1144 参照

bash - MATLAB を実行するための Bash スクリプトエラー

クラスターで matlab スクリプト (ga_opt_main.m) を実行しようとしています。基本的に単なるシェルスクリプトであるジョブ送信ファイルを作成する必要があります。しかし、私はシェルスクリプトを書いたことがなく、これは私が書いたものです

MATLAB はバックグラウンドで開きますが、ジョブが実行されません。代わりに、エラーファイルが表示されます

なぜこれが発生し、どのように回避できるかについてのアイデアはありますか? ありがとう！

bash matlab cluster-computing pbs

2012-08-03T23:30:51.103

0 投票する

1 に答える

1637 参照

pbs - PBS で、使用しないノードを指定する方法

ジョブを PBS サーバーに送信するときに、使用しないノードを指定することはできますか?

ありがとう

pbs

2012-08-13T16:41:45.763

0 投票する

2 に答える

2040 参照

c++ - 実行可能ファイルが 2 つ以上のノードで実行されている場合、環境変数が表示されないのはなぜですか?

MPIを使用して2番目の実行可能ファイル（「スレーブ」）を「生成」するプログラム（「ランチャー」と呼びます）をC++で作成しています。クラスターがランチャーに使用できるノードの数に応じて、各ノードでスレーブが起動され、スレーブは MPI を介してランチャーとも通信します。スレーブが計算を完了すると、ノードが使用可能になったことをランチャーに通知し、ランチャーは空いているノードに別のスレーブを生成します。ポイントは、2 番目の実行可能ファイルに依存する 1000 の独立した計算を、マシンの異種グループで実行することです。

これは自分のコンピューターで機能しており、「偽の」マシンファイル (またはホストファイル) を作成して、プログラムに 2 つのノード (localhost と localhost) を提供しています。ランチャーは 2 つのスレーブを生成し、そのうちの 1 つが終了すると、別のスレーブが起動されます。これは、Spawn プロセスが正しく機能していることを示しています。

それをラボのクラスターに移動すると (torque/maui を使用して管理します)、1 つのノードを要求しても機能します。さらに要求すると、ライブラリが見つからないというエラーが表示されます (正確には、libimf.so。Intel コンパイラのライブラリ)。ライブラリはそこにあり、ノードはそれを見ることができます。これは、ノードを 1 つだけ要求するとプログラムが実行されるためです。

動作する私の PBS は次のようになります。

2 つ以上のノードを試してみると、ランチャーは実行可能ファイルを生成しません。次のような出力が得られます。

メーリングリストで私のような問題を抱えている別の人を見つけましたが、解決策はありません。( http://lists.mcs.anl.gov/pipermail/mpich-discuss/2011-July/010442.html )。唯一の答えは、ノードが lib を参照できるかどうかを確認することを提案した (lib が格納されているディレクトリがノードにマウントされている場合)。

ssh node2 ls /opt/intel/composerxe-2011.3.174/compiler/lib/intel64/libimf.so >> $log_file

私のPBSスクリプト内にあり、libはノードが見ることができるフォルダーに存在します。

私の意見では、torque/maui は環境変数をすべてのノードにエクスポートしていないようです (理由はわかりませんが)。そのため、MPI_Spawn を使用して別のノードで別の実行可能ファイルを実行しようとすると、ライブラリが見つかりません。それは意味がありますか？もしそうなら、解決策を提案できますか？誰でも他のアイデアを提供できますか？前もってありがとう、マルセロ

編集：

回答の1つの提案に従って、OpenMPIをインストールして、オプション「-x VARNAME」をmpiexecでテストしました。PBS スクリプトで、実行行を次のように変更しました。

しかし、次のエラーメッセージが表示されました:

インターネットから、このエラーは通常、私の場合のように、mpiexec を複数回実行したことが原因であることがわかりまし/path/to/mpiexec mpiexec -n 2 my_programた。

生成された「スレーブ」プログラムは、ポートを使用して「ランチャー」プログラムと通信することを追加する必要があると思います。ランチャーは、MPI_Open_port と MPI_Comm_accept でポートを開き、スレーブが MPI_Comm_connect を実行すると、スレーブプログラムが接続するのを待ちます。

上で述べたように、ノードを 1 つだけ要求すると、これらすべてが (MPICH2 で) 機能します。OpenMPI では、ノードを 1 つだけ要求しても上記のエラーが発生します。

c++environment-variables mpi pbs torque

2012-09-03T18:18:44.923

0 投票する

1 に答える

4761 参照

csh - PBSトルクでqsub-vコマンドを使用するにはどうすればよいですか？

「qsub-v」コマンドを使用して、変数をcshスクリプトに渡したいと思います。以下のようにパラメータと値のペアをリストできることを理解しています。

これらのパラメータの値が文字列、コンマ記号で区切られた数値のリスト、またはファイル名であるかどうかを誰かが知っていますか？たとえば、以下のコマンドは可能ですか？

どうもありがとうございます、

csh pbs qsub torque

2012-10-18T21:40:43.433

0 投票する

1 に答える

3247 参照

parallel-processing - 1 回の PBS ジョブ送信で複数のコマンドを実行する方法

私は 1 から 4 の CPU しか必要としないコードを書きました。しかし、クラスターでジョブを送信するときは、ジョブごとに 16 コアのノードを少なくとも 1 つ使用する必要があります。そのため、送信する各ジョブで各ノードで複数のシミュレーションを実行したいと考えています。1 つのジョブでシミュレーションを並行して送信する方法があるかどうか疑問に思っていました。

以下に例を示します。私のコードは 4 CPU を使用します。1 つのノードにジョブを送信し、そのノードでコードの 4 つのインスタンス (各インスタンスには異なるパラメーターがあります) を実行して、16 個のコアすべてを使用するようにします。

parallel-processing pbs qsub torque supercomputers

2012-11-08T02:38:18.467

0 投票する

1 に答える

848 参照

bash - PBS キュー内のジョブの位置を決定する方法は?

ジョブのスケジューリングに PBS/Torque を使用する計算クラスターを使用しています。キューは時々かなり長くなる可能性があります。たとえば、800を超えるキューにいくつかのジョブが送信されています（showqジョブの完全なリストが表示されていると報告されていますが、私が知る限り、これらは必ずしも含まれているわけではありません実行の順序)。

自分のジョブがキューのどこにあるかを知りたいです。私の前にいくつ処理されますか？次のような出力を取得したいと思いますJob <id>: 417/862。このようにして、進行状況と待機時間の少なくともいくつかの兆候が得られます。しかし、私はこれを行う方法を見つけることができませんでした。それはできますか？

bash job-scheduling pbs

2012-11-28T16:44:11.693

0 投票する

0 に答える

715 参照

cluster-computing - ビジー時に pbs ジョブが出力されない

PBS で問題が発生しています。サブミットしたすべてのジョブのうち、出力が正常に生成されない部分がある傾向があります。すべての出力が生成されるまで、何度か再送信する必要があります。また、他のユーザーが大量のジョブを送信すると、これが特に悪いことに気付きました。この場合、すべてのジョブが期待される出力ファイルを生成できません。

私は PBS の唯一のユーザーなので、何が起こっているのかわかりません。誰かが素晴らしい提案をすることができれば。ありがとう。

cluster-computing pbs qsub torque

2012-12-10T15:52:37.663

0 投票する

2 に答える

100 参照

google-app-engine - App Engine での URL 固有の方法でのレイテンシの管理

クラスターで実行されている PBS pro によって生成された電子メールを受信するために、GAE のアプリを使用しています。アプリは、電子メールを解析してクラスタージョブの統計を取得し、簡単なレポートを生成します。

問題は、クラスターで大量のジョブが開始されると、アプリが数秒で 1000 件以上のメールでヒットする可能性があることです。リクエストを処理するために、膨大な数のインスタンスが起動されます。許容レイテンシーを数秒程度に設定することでこれを制御できますが、これにより、レポートを含むアプリのフロントページを提供するときに目に見えるレイテンシーが発生する可能性があります。

個別の URL ごとに許容できる待ち時間を設定する方法はありますか?

より多くのインスタンスを起動せずに高レイテンシーになる可能性がありますが、他の URL のいずれかが高レイテンシーを引き起こしている場合、より多くのインスタンスが起動されますか?

-- アンドリュー

google-app-engine web-applications latency pbs

2012-12-12T16:35:03.567

問題タブ [pbs]

Reference