ウィキペディアでは、HDF5 に関する次の批判を読むことができます。
HDF5 に対する批判は、そのモノリシックな設計と長い仕様に由来しています。150 ページのオープン スタンダードですが、HDF5 の C 実装は 1 つしかありません。つまり、すべてのバインディングでバグとパフォーマンスの問題が共有されます。ジャーナリングの欠如と相まって、現在の安定版リリースで文書化 されたバグにより、 HDF5 データベース全体が破損する可能性があります。1.10-alpha ではジャーナリングが追加されていますが、以前のバージョンとの下位互換性はありません。また、HDF5 は UTF-8 を十分にサポートしていないため、ほとんどの場所で ASCII が必要になります。さらに、最新のドラフトでも、配列データを削除することはできません。
これは HDF5 の C 実装に適用されるだけなのか、それとも HDF5 の一般的な欠陥なのか疑問に思っています。
私は時々ギガバイトのデータを生成する科学実験を行っており、すべての場合で少なくとも数百メガバイトのデータを生成しています. 明らかに、データの損失、特に破損は、私にとって大きな不利益となります。
私のスクリプトには常にPython APIh5py
があるため、 (バージョン 2.5.0)を使用しています。
では、この批判は私に関係がありますか? データの破損について心配する必要がありますか?