4

現在、リモート クラスターで CMAQ というシミュレーション コードを実行しています。最初にベンチマーク テストを連続して実行して、ソフトウェアのパフォーマンスを確認しました。ただし、ジョブは常に数十時間実行され、その後、次の「Stale file handle, errno=116」エラー メッセージでクラッシュします。

PBS ジョブ ID: 91487.master.cluster ジョブ名: cmaq_cctm_benchmark_serial.sh Exec ホスト: hs012/0 ジョブの処理中にエラーが発生しました。以下を参照してください。ポスト ジョブ ファイル処理エラー。ホスト hs012/0 上のジョブ 91487.master.cluster 不明なリソース タイプ REJHOST=hs012.cluster MSG= 無効なホーム ディレクトリ '/home/shangxin' 指定、errno=116 (古いファイル ハンドル)

ホームディレクトリを変更したことはなく、この「/home/shangxin/」は確かにコードが置かれている私の永続的なディレクトリであるため、これは非常に奇妙です....

また、ジョブが失敗すると、標準出力の .log ファイルに次のメッセージが常に表示されます。

バス エラー 100247.930u 34.292s 27:59:02.42 99.5% 0+0k 16480+0io 2pf+0w

このメッセージは具体的に何を意味しますか?

このエラーは、ジョブが RAM を消費していることが原因であると考えていましたが、これはメモリ オーバーフローの問題です。しかし、実行中にコンピューティング ノードにログインして「free -m」コマンドと「htop」コマンドでメモリ使用量を確認したところ、RAM とスワップ メモリの占有率がいずれも 10% を超えることはなく、非常に低いレベルであることに気付きました。メモリ使用量は問題ありません。

実行中のジョブをログ ファイルに記録するために "tee" を使用したため、このファイルには最大で数万行を含めることができ、サイズは 1 MB を超えます。この標準出力がクラスタ システムを圧倒するかどうかをテストするために、別の同じジョブを実行しましたが、標準出力ログ ファイルは使用しませんでした。新しいジョブは、数十時間経っても同じ「Stale file handle, errno=116」エラーで失敗するため、標準出力も理由ではありません。

また、ジョブを複数のコアで並行して実行しようとしましたが、数十時間実行した後も同じエラーで失敗しました。

私が使用しているコードは、他のクラスターで正常に終了できるため、問題がないことを確認できます。このクラスターの管理者は問題を調査していますが、現時点では特定の理由を見つけることができません。

誰かがこの奇妙なエラーに遭遇したことがありますか? クラスターでこの問題を解決するにはどうすればよいですか? どんな助けでも大歓迎です!

4

1 に答える 1