それぞれ約 1.5 GB の約 500 個の HDF5 ファイルがあります。
各ファイルの構造はまったく同じで、7 つの複合 (int、double、double) データセットと可変数のサンプルです。
ここで、各データセットを連結して、このすべてのファイルを連結し、最終的に 7 つのデータセットを含む単一の 750 GB ファイルを作成したいと考えています。
現在、次の h5py スクリプトを実行しています。
- 最大無制限の適切なデータセットで HDF5 ファイルを作成します
- すべてのファイルを順番に開く
- サンプル数を確認してください(可変であるため)
- グローバル ファイルのサイズを変更する
- データを追加する
これには明らかに何時間もかかりますが、これを改善するための提案はありますか?
私はクラスターで作業しているので、HDF5 を並行して使用できますが、自分で何かを実装するにはCプログラミングが得意ではありません。既に作成されたツールが必要です。