問題タブ [condor]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
condor - HTcondor に送信された特定のジョブのステータスを確認するにはどうすればよいですか?
特定のジョブのステータスを確認する方法 (クラスター/プロセス ID など) と、ジョブが送信されたときにそれらの ID を取得する方法はありますか?
condor - コンドルのタイムアウトを強制的に終了させます(0)
次の行を添付しました
コンドルサブファイルに、ジョブは 20 分後に中止されます。ただし、このサブファイルは DAG ファイルの一部であり、ジョブが中止されるため、DAG ファイルは後続のジョブに移動しません。
スケジューラが後続のジョブを開始するように、このタイムアウト コードを DAG スケジューラの目には成功のように動作させる方法はありますか?
1回目の編集
答えについてのヒントを見つけたかもしれないと思います:
これらの式を使用して、多くの一般的なアクションを自動化できます。たとえば、ジョブが 1 時間以上実行されることはなく、1 時間以上実行されている場合は、何かが間違っている可能性があり、調査が必要になることがわかっているとします。不必要にクラスターでジョブを実行したままにする代わりに、Condor はサブミット ファイルに以下を追加してジョブを保留にすることができます。
または、セグメンテーション フォールトが時々発生するが、同じデータに対して再度実行すると、正常に終了する可能性が高いことがわかっているジョブがあるとします。この動作は、送信ファイルに次の行を追加することで取得できます。
上記の式は、ジョブがシグナルによって終了し、そのシグナル番号が 11 (セグメンテーション違反を表す) の場合、ジョブをキューから出させません。それ以外のジョブ終了の場合は、キューを離れます。
この情報は、こちらの全体的なコンドル チュートリアルの一部です。 +Scheduler/15.2+Using+Condor/
これが正しいトラックかどうかは誰でも確認できますか?
distributed-computing - コンドルにクラスター内のすべてのノードにジョブを送信させるにはどうすればよいですか?
複数のノードがアクティブなコンドル クラスタがあります。
しかし、ジョブを送信すると、単一のノード (つまりマスター ノード) でしか実行されません。私は、Condor が利用可能なリソースに基づいてジョブを自動的に分配することを認識しています。
しかし、condor にすべてのノードを強制的に使用させたい場合はどうすればよいでしょうか? 複数のノードと単一のノードで実行する場合の処理時間を評価するためだけですか?
送信ファイルに requirements = Machine == "hostname1" && Machine == "hostname2" を追加しようとしましたが、機能しません。
parallel-processing - コンドルでの並列処理
800 枚の画像を処理する Java プログラムがあります。
分散コンピューティングのプラットフォームとして Condor を使用することに決めました。これらの画像を使用可能なノードに分割し、処理して、結果を結合できるようにすることを目的としています。
4 つのノードがあるとします。各ノードで 200 枚の画像になるように処理を分割し、最終結果を結合して返したいと考えています。
Javaプログラムとして送信し、要件= Machine == ..(すべてのノードを記載)を指定して、通常どおり実行しようとしました。しかし、うまくいかないようです。
処理を分割して並列実行するにはどうすればよいですか?
io - Win7 での Condor: 接続の問題 (Errno 10054)
このガイドに従って、複数の Win7 (32/64 ビット) コンピュータにコンドル 8.2.0 をインストールしました: http://www.slideshare.net/gtelzur/condor8-win-installすべてのサービスは同じマシンで実行されるため、除外物理的なネットワークの中断。
ジョブが作成/送信されると、常にアイドル モードのままになります。ログ ファイルの詳細を調べると、次の問題が明らかになります (ShadowLog)。
ID 10054 の IO 例外に関する詳細を見つけることができませんでした。「Condor IO: Failed to read packet header」を検索しても、Google は有用なヒントを提供しません。
問題に対処できる手がかりはありますか?
condor - STDOUT を介して結果を表示することができます
次の 2 つのコマンドを使用して、出力を送信マシンにストリーミングしています。
ファイル out.txt ではなく、サブミット マシンの stdout に出力をストリーミングすることは可能ですか?