OpenMPI / MPICH2クラスターのノードが終了した場合はどうなりますか?この場合に耐性があり、実行を継続するメカニズムはありますか?
回答ありがとうございますハインリッヒ
OpenMPI / MPICH2クラスターのノードが終了した場合はどうなりますか?この場合に耐性があり、実行を継続するメカニズムはありますか?
回答ありがとうございますハインリッヒ
MPI 1.x の時代から存在していた機能として、エラー ハンドラを設定できることに注意してください。
http://www.mpi-forum.org/docs/mpi-11-html/node148.html
Mark が指摘しているように、私たちのほとんどは MPI_ERRORS_ARE_FATAL (デフォルト) を使用するだけです。これは、私たちのアルゴリズムは非常に状態が重く、簡単に回復できないためです (チェックポイントを使用する場合を除きますが、私たちのほとんどはとにかく行います)。
しかし、そうである必要はありません。MPI 関数にエラー メッセージを返させ、できる限り回復を試みることができます。
http://icl.cs.utk.edu/ftmpi/ (これは古いもので、MPI 1.2 機能のみを実装しています) 。最近では、http: //osl.iu.edu/research/ft/cifts/ が別のプロジェクトとして OpenMPI に組み込まれている 1 つのアプローチであり、OS レベルのチェックポイント/再起動パッケージ BLCR もあります。興味。
MPI-3 フォーラムでは、MPI の標準フォールト トレランス API について議論しているため、そのようなプロジェクトのペースは加速しています。
そうではありませんが、MPI はすぐに使用できるフォールト トレランスを提供しません。プロセスの障害に対処するプログラムを作成することもできますが、ほとんどの人はそうではありません。この状況は、数十万のプロセッサを備え、平均故障間隔が数秒のスーパーコンピュータの出現によって変化しています。