問題タブ [torque]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
312 参照

r - 壁時計の時間制限に達した後、R スクリプトを Torque/Moab に自動的に再送信する方法は? Rトルク

Torque/Moab を使用して実行する R スクリプトがあります。ただし、壁時計の時間制限は、スクリプトの終了に必要な時間よりもはるかに短いです。解決すべき問題の性質上、スクリプトをこれ以上並列化することはできません。

特定の間隔でワークスペースのバックアップを作成するようにスクリプトを変更し、バックアップから再開して計算を続行します。

ただし、壁時計の時間制限に達した後、必要な限り、スクリプトを Torque/Moab スケジューラに自動的に再送信するソリューションが必要です。

ありがとう。

0 投票する
1 に答える
2564 参照

linux - Torque ジョブの OpenFabrics メモリ制限を増やすにはどうすればよいですか?

InfiniBand で MPI ジョブを実行すると、次のような摩耗が発生します。トルクマネージャーを使用しています。

警告メッセージのリンクを読みましたが、これまでに行ったことは次のとおりです。

  1. に追加options mlx4_core log_num_mtt=20 log_mtts_per_seg=4/etc/modprobe.d/mlx4_en.confます。
  2. 次の行が書かれていることを確認してください/etc/security/limits.conf
    • * soft memlock unlimited
    • * hard memlock unlimited
  3. session required pam_limits.soに追加/etc/pam.d/sshd
  4. ulimit -c unlimitedがコメント解除されていることを確認してください/etc/init.d/pbs_mom

足りないものを見つけるのを手伝ってくれる人はいますか?

0 投票する
1 に答える
219 参照

python - python2.4でサブプロセスを使った並列処理

非常に大きな行列の列のすべてのペアごとの組み合わせについて統計を計算したいと考えています。jaccard.py私は、列のペアを受け入れ、行列に対してこの統計を計算すると呼ばれる Python スクリプトを持っています。

私の作業用マシンでは、各計算に約 10 秒かかり、約 95,000 回の計算を完了する必要があります。ただし、これらの計算はすべて互いに独立しているため、Torque キューイング システムと python2.4 を使用するクラスターを使用したいと考えています。Torque と互換性があるように、この計算を並列化する最良の方法は何ですか?

subprocess計算自体は python2.4 に対応させましたが、 を使用してこれらの計算を並列化する方法、または GIL のためにそれを実行できるかどうかで途方に暮れています。

私が持っている主なアイデアは、サブプロセスの一定のプールを維持することです。終了したら、出力を読み取り、次の列のペアで新しい出力を開始します。計算が終了したら、出力のみが必要です。その後、新しい計算でプロセスを再開できます。

私の考えは、この方法でジョブを送信することでした

myjob.sh次のようなメインの python ファイルを呼び出します。

これを最善の方法で行うためのアドバイスはありますか?私は Torque を使用したことがなく、このようなサブプロセッシングに慣れていません。multiprocessing.Poolワークステーションで使用してみましたが、問題なく動作しましPool.mapたが、クラスターが python2.4 を使用しているため、続行する方法がわかりません。

EDIT : 実際には、考え直して、複数の qsub スクリプトを記述し、それぞれが 95000 の計算の 1 つのチャンクのみで動作するようにすることができました。それぞれ 7125 回の計算を行う 16 の異なるジョブのようなものを送信できます。それは本質的に同じことです。

0 投票する
2 に答える
42919 参照

bash - PBS の特定のノードにジョブを送信する方法

PBS/TORQUE で特定のノードにジョブを送信するにはどうすればよいですか? ノードの後に​​ノード名を指定する必要があると思います。

ただし、これは機能していないようで、その理由はわかりません。この質問はここ PBS で行われ、使用するノードを指定してください

ここに私のサンプルコードがあります

また、ジョブが実行されているノードを確認するにはどうすればよいですか? 詳細を示すどこかを見ました$PBS_NODEFILEが、うまくいかないようです。

0 投票する
1 に答える
348 参照

session - Ubuntu: リモート ログイン (SSHD) - タイムアウト時にセッションとジョブを強制終了する

サーバー シナリオ:

Ubuntu 12.04 LTS
Torque with Maui Scheduler
Hadoop

小さなクラスター (10 ノード) を構築しています。ユーザーは任意の子ノード (LDAP 認証) に ssh することができますが、実行したいすべての計算ジョブは、スケジューラに関連付けられたトルク、hadoop、またはその他のリソース マネージャーを使用してヘッド ノードに送信できるため、これは実際には不要です。ノード全体で優先度と適切なリソース割り当てを保証します。一部のユーザーは他のユーザーよりも優先されます。

問題:

ユーザーにトルクのようなバッチ システムの使用を強制することはできません。1 つのノードまたはヘッド ノードですべてのリソースを占有したい場合は、ターミナルまたは ssh セッションからスクリプトまたはコードを直接実行できます。

解決:

メイン ユーザーまたは「スーパーユーザー」は、現在のクラスターがこの問題を解決するために使用するリモート ログイン タイムアウトを設定するように求めています。(このクラスターにアクセスできないため、構成を取得できません)。非アクティブなすべてのリモート セッション (キーストローク) で 30 分のタイムアウトを設定したい。それらがプロセスを実行している場合は、すべてのジョブ プロセスと共にセッションを強制終了したい。これにより、利用可能なバッチ システム / スケジューラを使用しない人を排除できます。

質問:

どうすればこのようなものを実装できますか? 助けてくれてありがとう!

0 投票する
1 に答える
1190 参照

shell - qdel は他のユーザーのジョブをすべて削除しますか?

私は、スーパーコンピューティング クラスターを使用している多くのユーザーの 1 人です。端末に電話qdel allするUbuntuと、全員の仕事が殺されますか、それとも私の仕事だけが殺されますか?

0 投票する
1 に答える
243 参照

torque - 静的にリンクされた実行可能ファイルを使用した BLCR チェックポイントのトルク

Berkeley Lab チェックポイント (BLCR) スキームを使用してトルク ジョブ スケジューラによって処理されているジョブをチェックポイントしようとしていますが、コンパイル時に実行可能ファイルが静的にリンクされていると思われるため、cr_run 'my_exec' を試行するとエラーがスローされます。送信スクリプトは次のようになります (簡略化された疑似バージョン):

私は動的にリンクされたバイナリ (主に自分で書いたコードから構築された実行可能ファイル) を使用してチェックポイント ジョブを成功させたので、これを行う方法は既に知っています。問題は、実行しようとしている実行可能ファイルが事前にコンパイルされていて、ソース コードがないか、またはこれが問題にならないことです。

いくつかのアドバイスを提供しているように思われるドキュメントをここ(4.2 を参照) で見つけましたが、ここで提案を解読してテストする前に、動的ではない実行可能ファイルから実行されるチェックポイント ジョブの経験があるかどうかを確認する価値があると思いました。コンパイル時にリンクされます。

補足として、コードには内部チェックポイントがありません。また、29 時間スリープするよりも丁寧なチェックポイントの方法を使用しています。これを含めたのは、スクリプトが煩雑にならず、読みやすくするためです。