問題タブ [torque]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
852 参照

hadoop - ユーザープロセスとしてのHadooponBatch System

Hadoop-on-DemandとSGEでのHadoop統合を見てきました。私の理解では、管理者権限が必要ですが、これは職場の大きなクラスターにはありません。管理者は手一杯で、何ヶ月も私たちをセットアップすることができません。

一時的な仮想クラスターがHDFSのユーティリティに課す制限を認識しています。また、光沢ファイルシステムを使用すると、問題が発生することも理解していますが、Hadoopインスタンスを起動するクラスターにジョブを送信するためにSGEまたはTorque(PBS)スクリプトを作成した人はいますか?

0 投票する
1 に答える
5180 参照

torque - qsub /トルクでジョブを送信するときに特定のノードを除外しますか?

qsub を使用してバッチ ジョブを送信する場合、特定のノードを (ホスト名で) 除外する方法はありますか?

何かのようなもの

0 投票する
1 に答える
4885 参照

pbs - qstatコマンドを使用してTorquePBSサーバーから「ホストからのアクセスが許可されていないか不明なホスト」を取得する

コマンドを実行しようとしてqstatいますが、キューのステータスを取得する代わりに、次のエラーが表示されます。

デフォルトのサーバーホスト'torqueserver'を解決できません-server_nameファイルを確認してください。qstat:サーバーtorqueserverに接続できません(errno = 15010)ホストからのアクセスが許可されていないか、不明なホスト

どうすればそれを解決できますか?

0 投票する
1 に答える
255 参照

hadoop - Hadoop とのクラスターの共有

クラスター上の他のアプリケーションとうまく連携するように Hadoop をセットアップすることは可能ですか?

私は Torque+Maui リソース スケジューラと、HadoopOnDemand を使用して一時的な Hadoop クラスターをプロビジョニングすることに精通しています。しかし、多くの人が Hadoop を使用したい場合、それはかなり面倒です。それぞれの人が、自分のミニ Hadoop クラスターをセットアップして破棄し、自分の HDFS との間でデータをコピーするなど、同じ頭痛の種を抱えています。

常に稼働している HDFS を使用して、人々が共有する Hadoop の永続的なインスタンスを 1 つ実行できれば、はるかに優れたものになるでしょう。これには、Hadoop が他のアプリケーション (たとえば R など) でビジーでないノードに作業をインテリジェントに割り当て、ジョブをキューに入れるときに貪欲にならないようにする必要があります。

これは可能ですか?

0 投票する
4 に答える
4587 参照

parallel-processing - PBS、標準出力を更新

Torque/PBS ジョブを長時間実行しており、出力を監視したいと考えています。ただし、ログ ファイルはジョブの終了後にのみコピーされます。PBS に更新するよう説得する方法はありますか?

0 投票する
0 に答える
289 参照

java - プロセスがスリープしている時間を除いてJavaで経過したプロセス時間を検出する方法

私は、子プロセスを起動し、stdout を介してデータを受信し、計算を実行する Java プログラムに取り組んでおり、このプロセスが繰り返されます。このプログラムは、Torque 関連の PBS を使用するスーパーコンピューターで実行し、システムの使用率を最大化するために定期的にジョブを一時停止する特別なスケジューリング機能を備えています。

実行中に発生した問題の 1 つは、子プロセスが不可解にハングアップし (原因は現在不明)、Java が決して到着しない応答を待機するインスタンスでした。私がやりたいことは、このプロセスを監視し、実行時間のカットオフを強制することです。つまり、プロセスが異常な時間実行された場合、終了し、何らかのエラーをスローして、これが発生したことを知らせます。

通常、これを行うには Apache commons exec ウォッチドッグを使用します。しかし、このジョブが中断されている時間がこのカットオフに寄与するのではないかと心配しています (開始と終了の System.currentTimeMillis() の違いを使用すると仮定します)。Apache commons exec ウォッチドッグはこれに悩まされますか? 経過時間の計算で中断時間を除外する方法はありますか?

0 投票する
2 に答える
14024 参照

mpi - open-mpi/mpi-run での共有ライブラリのロード

mpi run を使用してトルク スケジューラを使用してプログラムを実行しようとしています。私のpbsファイルでは、すべてのライブラリを

それでもエラーが発生します

エラーは、すべてのノードで設定されていない変数 LD_LIBRARY_PATH にあると思います。どうすれば機能しますか?

0 投票する
2 に答える
3102 参照

2d - どの2Dゲームエンジンを使用する必要がありますか?

どのゲームエンジンを使うべきかについてアドバイスを探しています。私はFlash(私がよく知っているエンジン)でゲームのプロトタイプを作成しましたが、それをさらに進めたいと思います。Flashの主な問題は、十分に高速ではないことです。GPUにアクセスできないと、すべてのゲームプレイ機能が完了しました。

私が探しているものは次のとおりです。-2Dゲームエンジン-無料またはリーズナブルなインディー価格-Javascript、c#または同様の言語-まともなコミュニティとドキュメント-強力-GPUにアクセスできる/GPUを最大限に活用する-Macに公開できる/Windows-Linuxとコンソールはボーナスですが必須ではありません-まともなIDE/エンジンインターフェース

今はTorque2Dで遊んでいますが、気に入っていますが、欠点は、TorqueScriptがC++に似ていることです。また、それがどれほど強力かはわかりません。

Unityの使用も快適ですが、これは2Dゲームであり、3Dエンジンで2Dゲームを作成するのは好きではありません。

うまくいけば、皆さんはいくつかの良いアイデアを持っていますか?

0 投票する
2 に答える
2040 参照

c++ - 実行可能ファイルが 2 つ以上のノードで実行されている場合、環境変数が表示されないのはなぜですか?

MPIを使用して2番目の実行可能ファイル(「スレーブ」)を「生成」するプログラム(「ランチャー」と呼びます)をC++で作成しています。クラスターがランチャーに使用できるノードの数に応じて、各ノードでスレーブが起動され、スレーブは MPI を介してランチャーとも通信します。スレーブが計算を完了すると、ノードが使用可能になったことをランチャーに通知し、ランチャーは空いているノードに別のスレーブを生成します。ポイントは、2 番目の実行可能ファイルに依存する 1000 の独立した計算を、マシンの異種グループで実行することです。

これは自分のコンピューターで機能しており、「偽の」マシンファイル (またはホストファイル) を作成して、プログラムに 2 つのノード (localhost と localhost) を提供しています。ランチャーは 2 つのスレーブを生成し、そのうちの 1 つが終了すると、別のスレーブが起動されます。これは、Spawn プロセスが正しく機能していることを示しています。

それをラボのクラスターに移動すると (torque/maui を使用して管理します)、1 つのノードを要求しても機能します。さらに要求すると、ライブラリが見つからないというエラーが表示されます (正確には、libimf.so。Intel コンパイラのライブラリ)。ライブラリはそこにあり、ノードはそれを見ることができます。これは、ノードを 1 つだけ要求するとプログラムが実行されるためです。

動作する私の PBS は次のようになります。

2 つ以上のノードを試してみると、ランチャーは実行可能ファイルを生成しません。次のような出力が得られます。

メーリングリストで私のような問題を抱えている別の人を見つけましたが、解決策はありません。( http://lists.mcs.anl.gov/pipermail/mpich-discuss/2011-July/010442.html )。唯一の答えは、ノードが lib を参照できるかどうかを確認することを提案した (lib が格納されているディレクトリがノードにマウントされている場合)。

ssh node2 ls /opt/intel/composerxe-2011.3.174/compiler/lib/intel64/libimf.so >> $log_file

私のPBSスクリプト内にあり、libはノードが見ることができるフォルダーに存在します。

私の意見では、torque/maui は環境変数をすべてのノードにエクスポートしていないようです (理由はわかりませんが)。そのため、MPI_Spawn を使用して別のノードで別の実行可能ファイルを実行しようとすると、ライブラリが見つかりません。それは意味がありますか?もしそうなら、解決策を提案できますか?誰でも他のアイデアを提供できますか?前もってありがとう、マルセロ

編集:

回答の1つの提案に従って、OpenMPIをインストールして、オプション「-x VARNAME」をmpiexecでテストしました。PBS スクリプトで、実行行を次のように変更しました。

しかし、次のエラーメッセージが表示されました:

インターネットから、このエラーは通常、私の場合のように、mpiexec を複数回実行したことが原因であることがわかりまし/path/to/mpiexec mpiexec -n 2 my_programた。

生成された「スレーブ」プログラムは、ポートを使用して「ランチャー」プログラムと通信することを追加する必要があると思います。ランチャーは、MPI_Open_port と MPI_Comm_accept でポートを開き、スレーブが MPI_Comm_connect を実行すると、スレーブ プログラムが接続するのを待ちます。

上で述べたように、ノードを 1 つだけ要求すると、これらすべてが (MPICH2 で) 機能します。OpenMPI では、ノードを 1 つだけ要求しても上記のエラーが発生します。