次世代の科学データ形式に関する議論では、ある種の JSON に似たデータ構造 (フィールドの論理グループ化) の必要性が確認されています。さらに、カスタム バイナリ構造を使用する代わりに、既存のエンコーディングを活用することが望ましいでしょう。シリアル化形式の場合多くのオプションがあります.これらの種類のエンコーディングの経験がある人からのガイダンスまたは洞察は高く評価されます.
要件: 私たちの形式では、データは通常 4096 バイト以下のレコードにパックする必要があります。各レコードは、独立して使用できる必要があります。データは、今後数十年にわたって読み取り可能でなければなりません。データのアーカイブと交換は、一連のレコードを保存および送信することによって行われます。データの破損は、破損したレコードにのみ影響し、ファイル/ストリーム/オブジェクト内の他のすべてのレコードは読み取り可能なままにする必要があります。
優先順位 (大まかな順序) は次のとおりです。
- 安定性、アーカイブの長期使用
- パフォーマンス、主に読み取り
- 不透明なブロブを保存する機能
- サイズ
- シンプルさ
- 幅広いソフトウェア (別名ライブラリ) のサポート
- ストリーム機能、送信され、レコードが生成されると読み取り可能 (可能な場合)
Protobuf ( Protocol Buffers RFC )、CBOR ( RFC )、およびMessagePackを少し調べ始めました。
最適な製品を決定するのに役立つ、またはさらに重要なことに、落とし穴や行き止まりを回避するのに役立つ経験のある方からの情報をいただければ幸いです。
前もって感謝します!