問題タブ [supercomputers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - 数十時間実行した後のリモート クラスタでの奇妙な「Stale file handle, errno=116」
現在、リモート クラスターで CMAQ というシミュレーション コードを実行しています。最初にベンチマーク テストを連続して実行して、ソフトウェアのパフォーマンスを確認しました。ただし、ジョブは常に数十時間実行され、その後、次の「Stale file handle, errno=116」エラー メッセージでクラッシュします。
PBS ジョブ ID: 91487.master.cluster ジョブ名: cmaq_cctm_benchmark_serial.sh Exec ホスト: hs012/0 ジョブの処理中にエラーが発生しました。以下を参照してください。ポスト ジョブ ファイル処理エラー。ホスト hs012/0 上のジョブ 91487.master.cluster 不明なリソース タイプ REJHOST=hs012.cluster MSG= 無効なホーム ディレクトリ '/home/shangxin' 指定、errno=116 (古いファイル ハンドル)
ホームディレクトリを変更したことはなく、この「/home/shangxin/」は確かにコードが置かれている私の永続的なディレクトリであるため、これは非常に奇妙です....
また、ジョブが失敗すると、標準出力の .log ファイルに次のメッセージが常に表示されます。
バス エラー 100247.930u 34.292s 27:59:02.42 99.5% 0+0k 16480+0io 2pf+0w
このメッセージは具体的に何を意味しますか?
このエラーは、ジョブが RAM を消費していることが原因であると考えていましたが、これはメモリ オーバーフローの問題です。しかし、実行中にコンピューティング ノードにログインして「free -m」コマンドと「htop」コマンドでメモリ使用量を確認したところ、RAM とスワップ メモリの占有率がいずれも 10% を超えることはなく、非常に低いレベルであることに気付きました。メモリ使用量は問題ありません。
実行中のジョブをログ ファイルに記録するために "tee" を使用したため、このファイルには最大で数万行を含めることができ、サイズは 1 MB を超えます。この標準出力がクラスタ システムを圧倒するかどうかをテストするために、別の同じジョブを実行しましたが、標準出力ログ ファイルは使用しませんでした。新しいジョブは、数十時間経っても同じ「Stale file handle, errno=116」エラーで失敗するため、標準出力も理由ではありません。
また、ジョブを複数のコアで並行して実行しようとしましたが、数十時間実行した後も同じエラーで失敗しました。
私が使用しているコードは、他のクラスターで正常に終了できるため、問題がないことを確認できます。このクラスターの管理者は問題を調査していますが、現時点では特定の理由を見つけることができません。
誰かがこの奇妙なエラーに遭遇したことがありますか? クラスターでこの問題を解決するにはどうすればよいですか? どんな助けでも大歓迎です!
r - Rで大規模なシミュレーションからの出力を保存するにはどうすればよいですか? (複数ノード、安全なアクセス)
私は研究プロジェクトのために大規模なシミュレーションを行っています。つまり、1,000 シーズンのフットボールをシミュレートし、結果を分析しています。季節は複数のノードに分散されるため、出力データをファイルに保存して後でアクセスできるようにする簡単な方法が必要です。ノードがいつ終了するかを制御できないため、すべてのノードが同時に同じファイルに書き込もうとすることはできませんが、すべてのノードが別のファイルに保存される場合は、すべてのノードを集約する方法が必要になります。後で簡単にデータ。考え?
matlab - ディレクトリ内のすべてのファイルを同時にループ
ループ内にループがあります 外側のループは、ディレクトリ内の各ファイルを通過し、内側のループを実行します
複数のファイルを選択して、これらのファイルに対して同時に内部ループを実行できますか
私は 32 コア 100GB RAM サーバーを使用しています。そして、私は現在、1 つずつ 1% の CPU しか使用していません
複数のファイルを同時に実行することでこれを高速化し、スーパーコンピューターを最大限に活用して時間を短縮したいと考えています