10

それぞれ約 1.5 GB の約 500 個の HDF5 ファイルがあります。

各ファイルの構造はまったく同じで、7 つの複合 (int、double、double) データセットと可変数のサンプルです。

ここで、各データセットを連結して、このすべてのファイルを連結し、最終的に 7 つのデータセットを含む単一の 750 GB ファイルを作成したいと考えています。

現在、次の h5py スクリプトを実行しています。

  • 最大無制限の適切なデータセットで HDF5 ファイルを作成します
  • すべてのファイルを順番に開く
  • サンプル数を確認してください(可変であるため)
  • グローバル ファイルのサイズを変更する
  • データを追加する

これには明らかに何時間もかかりますが、これを改善するための提案はありますか?

私はクラスターで作業しているので、HDF5 を並行して使用できますが、自分で何かを実装するにはCプログラミングが得意ではありません。既に作成されたツールが必要です。

4

3 に答える 3