“lustre”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

239 参照

filesystems - Lustre: 異なる書き込みリクエストを異なる OST に送信する

リクエストを並行して書き込むことができる典型的なシナリオがあり、各ファイルのサイズは数百 GB です。

私のテストシステムである Lustre ファイルシステムには、4 つの OST (それぞれ 3TB) と 1 つの MDS があります。

私が実際に観察したことは、ストライピングが無効になっている場合、Lustre は 1 つの OST がいっぱいでない限り、すべてのファイルを 1 つの OST に書き込むことです。

並列または重複する書き込み要求が発生したときに、MDS が現在ビジーでないターゲットを自動的に選択するように Lustre を構成することは可能ですか?

なぜLustreがデフォルトでこれを行わないのか、それとも何かを見逃したからなのか興味がありますか?

2013-06-26T16:34:16.513

0 投票する

1 に答える

252 参照

filesystems - Lustre ファイルシステムで LevelDB を実行する

LevelDB に基づくコードを実行しています。私のワークステーションでは正常に動作しますが、(Lustre ファイルシステムを使用して) クラスターにデプロイすると、プログラムが「無効な引数」エラーで中断します。このエラーは、LevelDB によってスローされます。

数時間読んだ後で Web で見つけたのは、LevelDB はクラスターまたはマルチプロセス環境では実行できないということです。LevelDB データベースと並行して何かをしようとしているわけではありませんが、LevelDB は単にそのファイルシステムが気に入らないようです。

共有ファイルシステムを使用して LevelDB をクラスタで実行するための提案はありますか? それは可能ですか？考慮すべき考慮事項はありますか？

乾杯！

filesystems cluster-computing leveldb lustre

2014-04-24T21:08:46.530

0 投票する

1 に答える

449 参照

sbt - SBT は、分散ファイルシステム上でもファイルシステムのロックを強制します。

私は、大学のハイパフォーマンスコンピューティングクラスタ (Lustre ファイルシステムを使用) で SBT を使用する大規模なテストスイートを実行するつもりでした。

私は非常に基本的なユーザー権限を持っているため、手動でインストールするか、tarball を抽出してインストールすることしかできませんでした。

でも-Dsbt.boot.lock=false、次のスタックトレースを取得します。

問題は、Lustre や NFS などの並列分散ファイルシステムがを実装していないことlock0ですが、SBT はそれに依存しているようです。

Intel i5、7200 rpm HDD ラップトップ (私の唯一の代替手段) でテストスイートを実行するには少なくとも 6 時間かかるため、高性能クラスターでテストスイートを実行できないことは大きな欠点です。分散ファイルシステム以外のファイルシステムにはアクセスできないので、ブートディレクトリを別の場所に置くという選択肢はありません。

これをGitHubの問題として送信するつもりでしたが、コミュニティガイドラインによると、この特定の種類の問題については、StackOverflow に質問を投稿する方が適切なオプションであることが示されています。

ラップトップで一晩中テストを実行することになりましたが、これにはあまり満足していません. これが修正されない限り、アクターベーステストの研究に SBT を使用し続けることはできません。

sbt nfs lustre

2015-04-12T18:40:47.893

0 投票する

1 に答える

875 参照

parallel-processing - 並列 HDF5: t_mpi の実行時に「make check」がハングする

並列 HDF5 をクラスターで 1 週間動作させるのに苦労していますが、何の進歩もありません。誰かがこれで私を助けてくれたらいいのにと思います。ありがとう！

RedHat Enterprise Linux 5.5 x86_64 OS を搭載した光沢ファイルシステム上に Parallel HDF5 (hdf5-1.8.15-patch1) を構築しています。impi 4.0.2 と openmpi 1.8 の両方でコンパイルしようとしましたが、エラーなしで成功しました。「チェックを行う」と、両方ともシリアルテストに合格しましたが、パラレルテスト (特に t_mpi) に入った直後にハングしました。最終的に、ctrl + C で終了する必要がありました。出力は次のとおりです。

上記の 2 つの MPI 実装の出力は同じですが、openmpi も警告を出力します。

警告: OpenFabrics サブシステムは、物理メモリの一部のみを登録できるように構成されているようです。これにより、MPI ジョブが不安定なパフォーマンスで実行されたり、ハングしたり、クラッシュしたりする可能性があります。

この問題を検索しました。しかし、それがハングの原因である可能性はないと思います。理由は最後に記載されています。

ぶら下がっている場所を探してみました。私が見つけたのは、それが最初に遭遇する集団機能に常に行き詰まるということです。たとえば、t_mpi で。最初にハングします：

MPI_File_delete(ファイル名, MPI_INFO_NULL); （477行目）、

in test_mpio_1wさん。この行をコメントアウトすると、すぐ下の MPI_File_open でスタックします。しかし、これらの関数内で何が起こったのかはわかりません。

もう一つ気になったことがあります。「make」を行う HDF5 のフォルダーは NFS ファイルシステムにあり、別の場所にある特定のフォルダーからのみ光沢にアクセスできます。したがって、テストはデフォルトでローカルで実行されるため、HDF5_PARAPERFIX を光沢フォルダーに設定しないと、テストがうまく実行されることがわかりました。ということは、メモリーの限界ではなく、光沢そのものの問題ではないでしょうか。

ありがとうございました！

parallel-processing mpi hdf5 lustre

2015-06-11T14:56:54.270

問題タブ [lustre]

filesystems - Lustre: 異なる書き込みリクエストを異なる OST に送信する

filesystems - Lustre ファイルシステムで LevelDB を実行する

sbt - SBT は、分散ファイル システム上でもファイル システムのロックを強制します。

parallel-processing - 並列 HDF5: t_mpi の実行時に「make check」がハングする

Reference

sbt - SBT は、分散ファイルシステム上でもファイルシステムのロックを強制します。