2 つの質問があります。
Q1 . チェックポイント/ロールバック以外に、MPI でエラー状況を処理するより効率的な方法はありますか? ノードが「死んだ」場合、プログラムが突然停止することがわかりました..ノードが死んだ後に実行を進める方法はありますか?? (精度を犠牲にしても問題ありません)
Q2 . 「http://stackoverflow.com/questions/144309/what-is-the-best-mpi-implementation」で、OpenMPI の方がフォールト トレランスが優れており、最近では MPICH-2 にも同様の機能が追加されていることを読みました。それらが何であり、どのように使用するか知っている人はいますか? 「モード」ですか?Q1に記載されている状況で、彼らは助けることができますか?
返信よろしくお願いします。ありがとうございました。