あなたが求めていることを完全に理解していないことを恐れています。どうにかして助けられるか見てみましょう。いくつかのシナリオを見ることができます:
- コンドルは、利用可能なマシンの数に関係なく、ジョブをマスター ノードで実行するようにスケジュールするだけです。
- Condor は、使用可能なすべてのマシンでジョブをスケジュールしています。しかし、あなたがやろうとしているのは、複数のマシンを利用する特定の仕事を得ることです。
ケース 1. サブミット ファイルまたはプール設定のいずれかで怪しいことが起こっています。condor_status
複数のマシンが返され、プールのセットアップは問題ないと仮定します。この場合の典型的な落とし穴は次のとおりです: ジョブに を指定しない場合Requirement
、Condor は 1 を挿入します。デフォルトでは、Condor は、サブミット ノードと同じ OS とアーキテクチャを持つマシンで実行されるジョブを要求します。これは、異質なプールで数回私を噛みました;-)
In case 2. you will have to make sure that your executable can make use of multiple machines (e.g. by way of MPI) and you need to tell Condor about it. One way to do that is to use the Parallel
universe. Another way is to use a classic master/worker architecture where the workers are persistent Condor jobs.