問題タブ [lustre]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
filesystems - Lustre: 異なる書き込みリクエストを異なる OST に送信する
リクエストを並行して書き込むことができる典型的なシナリオがあり、各ファイルのサイズは数百 GB です。
私のテスト システムである Lustre ファイル システムには、4 つの OST (それぞれ 3TB) と 1 つの MDS があります。
私が実際に観察したことは、ストライピングが無効になっている場合、Lustre は 1 つの OST がいっぱいでない限り、すべてのファイルを 1 つの OST に書き込むことです。
並列または重複する書き込み要求が発生したときに、MDS が現在ビジーでないターゲットを自動的に選択するように Lustre を構成することは可能ですか?
なぜLustreがデフォルトでこれを行わないのか、それとも何かを見逃したからなのか興味がありますか?
filesystems - Lustre ファイルシステムで LevelDB を実行する
LevelDB に基づくコードを実行しています。私のワークステーションでは正常に動作しますが、(Lustre ファイル システムを使用して) クラスターにデプロイすると、プログラムが「無効な引数」エラーで中断します。このエラーは、LevelDB によってスローされます。
数時間読んだ後で Web で見つけたのは、LevelDB はクラスターまたはマルチプロセス環境では実行できないということです。LevelDB データベースと並行して何かをしようとしているわけではありませんが、LevelDB は単にそのファイル システムが気に入らないようです。
共有ファイル システムを使用して LevelDB をクラスタで実行するための提案はありますか? それは可能ですか?考慮すべき考慮事項はありますか?
乾杯!
sbt - SBT は、分散ファイル システム上でもファイル システムのロックを強制します。
私は、大学のハイ パフォーマンス コンピューティング クラスタ (Lustre ファイル システムを使用) で SBT を使用する大規模なテスト スイートを実行するつもりでした。
私は非常に基本的なユーザー権限を持っているため、手動でインストールするか、tarball を抽出してインストールすることしかできませんでした。
でも-Dsbt.boot.lock=false
、次のスタック トレースを取得します。
問題は、Lustre や NFS などの並列分散ファイル システムが を実装していないことlock0
ですが、SBT はそれに依存しているようです。
Intel i5、7200 rpm HDD ラップトップ (私の唯一の代替手段) でテスト スイートを実行するには少なくとも 6 時間かかるため、高性能クラスターでテスト スイートを実行できないことは大きな欠点です。分散ファイル システム以外のファイル システムにはアクセスできないので、ブート ディレクトリを別の場所に置くという選択肢はありません。
これをGitHubの問題として送信するつもりでしたが、コミュニティ ガイドラインによると、この特定の種類の問題については、StackOverflow に質問を投稿する方が適切なオプションであることが示されています。
ラップトップで一晩中テストを実行することになりましたが、これにはあまり満足していません. これが修正されない限り、アクター ベース テストの研究に SBT を使用し続けることはできません。
parallel-processing - 並列 HDF5: t_mpi の実行時に「make check」がハングする
並列 HDF5 をクラスターで 1 週間動作させるのに苦労していますが、何の進歩もありません。誰かがこれで私を助けてくれたらいいのにと思います。ありがとう!
RedHat Enterprise Linux 5.5 x86_64 OS を搭載した光沢ファイル システム上に Parallel HDF5 (hdf5-1.8.15-patch1) を構築しています。impi 4.0.2 と openmpi 1.8 の両方でコンパイルしようとしましたが、エラーなしで成功しました。「チェックを行う」と、両方ともシリアル テストに合格しましたが、パラレル テスト (特に t_mpi) に入った直後にハングしました。最終的に、ctrl + C で終了する必要がありました。出力は次のとおりです。
上記の 2 つの MPI 実装の出力は同じですが、openmpi も警告を出力します。
警告: OpenFabrics サブシステムは、物理メモリの一部のみを登録できるように構成されているようです。これにより、MPI ジョブが不安定なパフォーマンスで実行されたり、ハングしたり、クラッシュしたりする可能性があります。
この問題を検索しました。しかし、それがハングの原因である可能性はないと思います。理由は最後に記載されています。
ぶら下がっている場所を探してみました。私が見つけたのは、それが最初に遭遇する集団機能に常に行き詰まるということです。たとえば、t_mpi で。最初にハングします:
MPI_File_delete(ファイル名, MPI_INFO_NULL); (477行目)、
in test_mpio_1wさん。この行をコメントアウトすると、すぐ下の MPI_File_open でスタックします。しかし、これらの関数内で何が起こったのかはわかりません。
もう一つ気になったことがあります。「make」を行う HDF5 のフォルダーは NFS ファイル システムにあり、別の場所にある特定のフォルダーからのみ光沢にアクセスできます。したがって、テストはデフォルトでローカルで実行されるため、HDF5_PARAPERFIX を光沢フォルダーに設定しないと、テストがうまく実行されることがわかりました。ということは、メモリーの限界ではなく、光沢そのものの問題ではないでしょうか。
ありがとうございました!