問題タブ [sungridengine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1405 参照

queue - sge で特定のキューへのアクセスを確認する方法

sgeを使用してクラスター上の特定のキューにアクセスできるかどうかを通知するコマンドがあるかどうか疑問に思っています。ありがとう:)

0 投票する
1 に答える
294 参照

shell - パイプシェルコマンドで export を使用すると qmake が失敗する

オープンな太陽グリッド エンジン (gridengine-GE2011.11) で qmake (v3.82) を使用すると問題が発生します。次の makefile コードを使用して問題を絞り込みました。

次のコマンドを使用します。

私はこの出力を得る:

export を使用せず
に動作する $(shell) コマンドでパイプを使用せず
に動作する FOO:=$(shell) (':' を使用)
を使用して動作する qmake コマンドで -j 1 (または並列化なし) を使用して動作する
通常のmakeを使用して動作します

これらの要因が一緒になって、私のメイクファイルではまれなケースである何かを台無しにします。

誰かがこれの原因を知っているか、修正を知っていますか?

0 投票する
0 に答える
383 参照

grid - Google Compute Engine (GCE) に相当する Starcluster はまだありますか?

GCEに相当するStarclusterがあるかどうか知っている人はいますか? Starcluster を EC2 で使用して、恥ずかしいほど並列ジョブを実行できて非常に満足しています。今、私はGCEを試してみたいと思っています。進行中のプロジェクトに喜んで貢献したいのですが、何も見つかりませんでした。

今のところ、必要なソフトウェア (つまり、Open Grid Engine) を手動でインストールし、コピー イメージを生成するだけでよいと思います。難しいことではありませんが、最初にここをチェックしておこうと思いました。

0 投票する
3 に答える
663 参照

google-compute-engine - Google Compute Engine でグリッド ジョブを設定して実行するためのツール

Google Compute Engine で「恥ずかしいほど」並列ジョブをセットアップして実行する必要があります。これを容易にするツールを探しています。

EC2 では、MIT の Starcluster を使用してクラスターをセットアップし、ジョブを SGE に送信しました。

Google Compute Engine で利用できる同様のツールはまだありますか?

そうでない場合は、Condor Cluster を手動でセットアップしてジョブを実行します。バズ殺す。

0 投票する
1 に答える
1176 参照

variables - SGE コマンドが見つかりません、未定義の変数

新しい計算クラスタをセットアップしようとしていますが、現在 SGE で qsub コマンドを使用するとエラーが発生します。問題を示す簡単な実験を次に示します。

test.sh

test.sh.eXX

test=hello: コマンドが見つかりません。

テスト: 未定義の変数。

test.sh.oXX

警告: tty にアクセスできません (不正なファイル記述子)。

したがって、このシェルにはジョブ制御がありません。

ヘッド ノード (sh test.sh) でスクリプトを実行すると、正しい出力が得られます。「qsub test.sh」と入力して、ジョブを SGE に送信します。

HPC などの確立されたコンピューティング クラスターでまったく同じスクリプト ジョブを同じ方法で送信すると、期待どおりに完全に機能します。この問題を引き起こしている可能性のある設定は何ですか?

この件についてご協力いただきありがとうございます。

0 投票する
1 に答える
220 参照

linux - Sun Grid エンジンが実行ノードのホスト情報を取得できません

2 つのノード (A と B) の小さなクラスター用に Centos 6 に gridengine をセットアップしています。両方で inst_sge -x -m を実行し、B を実行ノードとして A に追加しました。その後、qhost を実行しようとすると、

ノード B は情報を返しません。B で qhost を実行すると、A/B が切り替わった同様の出力が返されます。私はどこで間違っていますか?

0 投票する
2 に答える
9036 参照

linux - 特定のジョブ ID を共有するノードに QLOGIN する方法

次のような既存のqlogin仕事があります。

上記のジョブは、Linux の標準の qlogin コマンドを使用して送信されました。

私がやりたいことは、別の qlogin を実行して、プロセスが上記の Job-ID を持つ同じノードで実行されるようにすること3530770です。

アイデアは、コマンドで正しくtop実行された場合、上記のジョブ ID に送信された同じ実行中のプロセスを確認できるということです。

それを行う方法はありますか?

0 投票する
1 に答える
948 参照

ipython - Sun Grid Engine での IPython Parallel の使用

Sun Grid Engine を実行しているクラスターでシミュレーションを実行したいという非常に一般的なシナリオで IPython Parallel を使用しようとしていますが、これを行うための信頼できる方法が見つかりません。

これが私がやろうとしていることです:

いくつかの異なるパラメーター値を使用して (Numpy 配列を使用して) 数値シミュレーションを実行したい - タスクは明らかに/「恥ずかしいほど」並列です。Grid Engine を実行しているクラスターのヘッド ノードに (ssh 経由で) アクセスできます。今までは、QSUB コマンドでシェル スクリプトを実行していましたが、これは非常に扱いにくく (ノード クラッシュの処理など)、Python でこれらすべてを実行する方法を探していました。

IPython はこのシナリオに理想的に適しているように見えますが、セットアップをスムーズに機能させるには面倒であることが判明しています。ヘッド ノードで IPCLUSTER を使用して n 個 (たとえば 20 個) のエンジンを起動し、IPython.parallel.Client を使用して接続したローカル コンピューターに .json ファイルをコピーします。

私は設定 IPClusterStart.controller_launcher_class = 'SGEControllerLauncher' し、IPClusterEngines.engine_launcher_class = 'SGEEngineSetLauncher'

IPCLUSTER は正常に動作しているようです。ssh ターミナルのヘッド ノードから次の出力を取得します。

ただし、次の問題があります。

  1. 多くの場合、エンジンが正常に起動したという上記のメッセージが表示された後でも、多くのエンジンがコントローラーへの登録に失敗します。20 個のエンジンで IPCLUSTER を開始すると、10 ~ 15 個のエンジンが Grid Engine キューに表示されます。他のエンジンがどうなるかわかりません。出力ファイルがありません。これらの 10 ~ 15 個のエンジンのうち、一部のみを開始するエンジンがコントローラーに登録され、出力ファイルに次のように表示されます。

    他の人にはこれが見えます:

    なぜこれが起こるのか分かりますか?

  2. 時々、エンジンは正常に起動して登録されますが、次のような非常に単純なものを実行するとエンジンが停止し始めview.execute('%pylab')ます。返される唯一の例外は次のとおりです。

    [エンジン例外] トレースバック (最新の呼び出しが最後): ファイル "/Library/Frameworks/EPD64.framework/Versions/7.3/lib/python2.7/site-packages/IPython/parallel/client/client.py"、708 行目、_handle_stranded_msgs で error.EngineError("タスク %r の実行中にエンジン %r が停止しました"%(eid, msg_id)) EngineError: タスク 'b9601e8a-cff5-4037-b9d9-a0b93ca2f256' の実行中にエンジン 1 が停止しました

  3. このようにエンジンを起動すると、エンジンが実行されている限り、たとえ何も実行していなくても、ノードとキューが占有されます。エンジンを起動して、スクリプトを実行したいときにのみ生成され、計算結果が返されるとエンジンが閉じられるようにする簡単な方法はありますか?

  4. Grid Engine は毎回異なるノードでコントローラを起動するように見えるため、IPCLUSTER 構成ファイルの --ruse フラグは役に立ちません。IPCLUSTER を使用するたびに JSON ファイルをコピーする必要があります。これを回避する方法はありますか?

IPython 並列を使用して、SSH 接続を介して明らかに並列ジョブを SGE クラスターに送信するという、この一般的なシナリオの簡単なワークフローを誰かが提供できれば、非常に役に立ちます。エンジン クラッシュの再送信を処理する何らかの方法が必要です。また、シミュレーション中にのみクラスター リソースを使用する方法があると便利です。