c - MPI で特定の実行時間後にファイルを書き込む方法は?

Question

MPI と並行して C で記述されたシミュレーションコードがあり、12 時間経過後にジョブを強制終了する Linux クラスターで実行されます。12 時間以上続くジョブは、プログラムによって書き込まれたファイルから再開する必要があります。

私のコードは現在、シミュレーションの N ステップごとにこれらの「リスタートファイル」を書き込みます。リスタートファイルを書き込む前に、各ノードが同じシミュレーションステップにあることが重要です。

私の場合、これらのファイルは大きい (> 1GB/プロセス) ため、必要な頻度で書き込むことができません (多くの時間とスペースが必要です)。

また、1 つのシミュレーションステップの実行時間は、シミュレーション内で何が起こっているかによって異なります。その結果、シミュレーションが 12 時間以内に実行する多くのステップを予測することは非常に困難です。したがって、実行時間の 12 時間の直前に実行されると思われるステップ数の後に再起動ファイルを書き込むこともできません。

その結果、私のジョブが強制終了されると、最後の再起動ファイルが数時間前に書き込まれている可能性があり、その結果、最後の 12 時間の実行のかなりの部分をやり直す必要があります。

したがって、経過した実行時間の関数として再起動ファイルを書き込む方法を探しています。私は MPI_Wtime() を使用することを考えましたが、特定のランタイム、たとえば 11:50:00 では、すべてのプロセッサが必ずしも同じフェーズステップにあるとは限りません...これは良くありません。その問題に対する簡単な解決策はありますか？

score 3 · Accepted Answer

プロセスが 11:50:00 マーク (またはその他の適切な期限) に到達したら、を使用して完了した反復回数を AllReduce にしMPI_MAXます。その後、彼らは正確にその反復回数に追いつくことができ、他のすべての人が単純なバリアで同じことをするのを待ちます. その後、再起動ファイルの書き込みを開始できます。

c - MPI で特定の実行時間後にファイルを書き込む方法は?

1 に答える 1

Related

Reference