windows - Microsoft HPC の代替を推奨してください

Question

クラスター上に分散システムを実装することを目指しています。これは、リソースを消費する画像ベースのコンピューティングを大量のストレージ I/O で実行し、次の特性を備えています。

専用のマネージャーコンピューターノードと最大 100 の計算ノードがあります。クラスタは簡単に拡張できる必要があります。
これは、ジョブタスクの概念に基づいて構築されています。ジョブには、1 ～ 100,000 のタスクが含まれる場合があります。
ユーザーがマネージャノードでジョブを開始すると、計算ノードでタスクが作成されます。
タスクは、その場で他のタスクを作成します。
実行に数分かかるタスクもあれば、何時間もかかるタスクもあります。
タスクは依存関係の階層に従って実行され、オンザフライで更新される場合があります。
ジョブは一時停止され、後で再開される場合があります。
各タスクには、CPU (コア)、メモリ、およびローカルハードディスク領域に関して特定のリソースが必要です。マネージャーは、タスクをスケジュールするときにこれを認識しておく必要があります。
タスクは、進行状況と結果をマネージャーに伝えます。
マネージャは、タスクが有効かハングしているかを認識しています。

Windows HPC Server 2008 (HPCS) R2 は、私たちが必要としている概念に非常に近いものでした。ただし、いくつかの重大な欠点があります。

タスクの数が増えると、タスクの作成が指数関数的に遅くなります。数千を超えるタスクを提出することは、時間的に耐えられません。
タスクはその進行状況をマネージャーに報告できません。できるのはジョブだけです。
実行時にタスクとの通信がないため、タスクが実行中かどうか、または再起動が必要かどうかを確認できません。
HPCS はノード、CPU コア、およびメモリのみをリソース単位として認識します。独自のリソースユニット (空きディスク容量、カスタムハードウェアデバイスなど) を導入することはできません。

これが私の質問です。私たちを助けることができる分散コンピューティングフレームワークを知っている、または経験したことがある人はいますか? Windowsを使用しています。

score 6 · Accepted Answer

私は、Condorハイスループットコンピューティングプロジェクトを見てみたいと思います。Windows (および Linux、OSX) のクライアントとサーバーをサポートし、 DAGmanを使用してタスク間の複雑な依存関係を処理し、タスクを一時停止 (さらには移動) できます。私は、大学のキャンパス全体で数千台のマシンに拡張する Condor ベースのシステムの経験があります。

score 3 · Accepted Answer

Platform LSFは、必要なすべてを行います。Windows上で動作します。これは商用であり、サポート付きで購入できます。

はい。 1. 専用のマネージャーコンピューターノードと最大 100 の計算ノードがあります。クラスタは簡単に拡張できる必要があります。

はい 2. 仕事と仕事の概念に基づいて構築されています。ジョブには、1 ～ 100,000 のタスクが含まれる場合があります。

はい 3. マネージャーノードでユーザーが開始したジョブにより、コンピュートノードでタスクが作成されます。

はい 4. タスクは、その場で他のタスクを作成します。

はい 5. 数分で実行できるタスクもあれば、何時間もかかるタスクもあります。

はい 6. タスクは、オンザフライで更新される可能性のある依存関係の階層に従って実行されます。

はい 7. ジョブは一時停止され、後で再開される場合があります。

はい 8. 各タスクには、CPU (コア)、メモリ、およびローカルハードディスク領域に関して特定のリソースが必要です。マネージャーは、タスクをスケジュールするときにこれを認識しておく必要があります。

はい 9. タスクは進行状況と結果をマネージャーに伝えます。

はい 10. マネージャは、タスクが実行中かハングしているかを認識しています。

score 0 · Accepted Answer

ベオウルフを見たことがありますか？たくさんのディストリビューションから選択でき、たくさんのカスタマイズオプションがあります。あなたはあなたのニーズを満たす何かを見つけることができるはずです...

score 0 · Accepted Answer

グリッドゲインを試してください。これにより、実行時のノードの追加が非常に簡単になり、jmx インターフェイスを使用してクラスターを監視/管理できます。

score 0 · Accepted Answer

Data Synapse Grid Serverを使用すると、この種の問題を確実に解決できます。

専用のマネージャーコンピューターノードと最大 100 の計算ノードがあります。クラスタは簡単に拡張できる必要があります。はい、ブローカーは 2000 エンジンを簡単に処理できます。
これは、ジョブタスクの概念に基づいて構築されています。ジョブには、1 ～ 100,000 のタスクが含まれる場合があります。はい、問題なく 250,000 を超えるタスクをキューに入れました。最終的にはメモリ不足になります。
ユーザーがマネージャノードでジョブを開始すると、計算ノードでタスクが作成されます。はい
タスクは、その場で他のタスクを作成します。可能ですが、この種のモデルはお勧めしません
実行に数分かかるタスクもあれば、何時間もかかるタスクもあります。はい
タスクは依存関係の階層に従って実行され、オンザフライで更新される場合があります。はい。ただし、これはグリッドコンピューティングインフラストラクチャの外部で管理します
ジョブは一時停止され、後で再開される場合があります。はい
各タスクには、CPU (コア)、メモリ、およびローカルハードディスク領域に関して特定のリソースが必要です。マネージャーは、タスクをスケジュールするときにこれを認識しておく必要があります。はい
タスクは、進行状況と結果をマネージャーに伝えます。はい

` 10. マネージャーは、タスクが実行中か停止しているかを認識します。はい

score 0 · Accepted Answer

私は Beowulf をお勧めします。なぜなら、Beowulf は多数のワークステーションというよりも、1 台のマシンのように動作するからです。

score 0 · Accepted Answer

プロジェクトをクラウドでホストすることに問題がない場合は、Windows Azure / Appfabricを参照してください。私の知る限り、ワークフローを介してジョブを分散でき、負荷の増加に応じてジョブを処理するワーカーマシンを動的に追加できます。

score -1 · Accepted Answer

SunGrid Engineを調べましたか？使ってから久しぶりで、全力で使ったことはありませんが、これが私の理解です。

専用のマネージャーコンピューターノードと最大100の計算ノードがあります。クラスターは簡単に拡張できる必要があります。はい
これは、ジョブタスクの概念に基づいて構築されています。1つのジョブに1〜100,000のタスクが含まれる場合があります。わからない
マネージャーノードのユーザーによって開始されるジョブにより、計算ノードにタスクが作成されます。はい
タスクはその場で他のタスクを作成します。そう思います？
一部のタスクは数分間実行される場合がありますが、他のタスクは数時間かかる場合があります。はい
タスクは依存関係の階層に従って実行され、依存関係の階層はその場で更新される場合があります。わからない
ジョブは一時停止して後で再開できます。わからない
各タスクには、CPU（コア）、メモリ、およびローカルハードディスクスペースの観点から特定のリソースが必要です。管理者は、タスクをスケジュールするときにこれに注意する必要があります。かなり確実な
タスクは進行状況と結果をマネージャーに伝えます。かなり確実な

`10.マネージャーは、タスクが生きているかハングしているかを認識しています。はい

windows - Microsoft HPC の代替を推奨してください

8 に答える 8

Related

Reference