java - Java で構造化されたバイナリファイルを読み取る最良の方法

Question

Java でレガシー形式のバイナリファイルを読み取る必要があります。

簡単に言えば、ファイルには、いくつかの整数、バイト、および固定長の文字配列で構成されるヘッダーがあり、その後に整数と文字で構成されるレコードのリストが続きます。

他の言語では、ヘッダーとレコードのバイト単位の表現であるstructs (C/C++) またはs (Pascal/Delphi) を作成します。record次にsizeof(header)、バイトをヘッダー変数に読み込み、レコードに対して同じことを行います。

このようなもの: (Delphi)

type
  THeader = record
    Version: Integer;
    Type: Byte;
    BeginOfData: Integer;
    ID: array[0..15] of Char;
  end;

...

procedure ReadData(S: TStream);
var
  Header: THeader;
begin
  S.ReadBuffer(Header, SizeOf(THeader));
  ...
end;

Javaで似たようなことをする最善の方法は何ですか? すべての値を独自に読み取る必要がありますか、またはこの種の「ブロック読み取り」を行う他の方法はありますか?

score 36 · Accepted Answer

私の知る限り、Java ではファイルを読み取りをブロックするのではなく、バイト単位で読み取るように強制されます。Java オブジェクトをシリアライズする場合は、話が異なります。

示されている他の例では、File でDataInputStreamクラスを使用していますが、ショートカットを使用することもできます: RandomAccessFileクラス:

RandomAccessFile in = new RandomAccessFile("filename", "r");
int version = in.readInt();
byte type = in.readByte();
int beginOfData = in.readInt();
byte[] tempId;
in.read(tempId, 0, 16);
String id = new String(tempId);

より簡単になる場合は、応答オブジェクトをクラスに変換できることに注意してください。

score 20 · Accepted Answer

Preonを使用する場合は、次のことを行うだけです。

public class Header {
    @BoundNumber int version;
    @BoundNumber byte type;
    @BoundNumber int beginOfData;
    @BoundString(size="15") String id;
}

これができたら、次の 1 行を使用して Codec を作成します。

Codec<Header> codec = Codecs.create(Header.class);

そして、次のようにコーデックを使用します。

Header header = Codecs.decode(codec, file);

score 19 · Accepted Answer

次のように DataInputStream クラスを使用できます。

DataInputStream in = new DataInputStream(new BufferedInputStream(
                         new FileInputStream("filename")));
int x = in.readInt();
double y = in.readDouble();

etc.

これらの値を取得したら、好きなように処理できます。詳細については、API で java.io.DataInputStream クラスを参照してください。

score 10 · Accepted Answer

私はあなたを誤解しているかもしれませんが、ハードディスクから読みたいものをバイトごとに正確に表現し、すべてのものをメモリにコピーし、そこから操作？

もしそうなら、あなたは非常に危険なゲームをプレイしています. 少なくとも C では、標準は構造体のメンバーのパディングやアラインメントなどを強制しません。大きい/小さいエンディアンやパリティビットなどは言うまでもありません...したがって、コードがたまたま実行されたとしても、移植性が低く危険です。コンパイラの作成者が将来のバージョンで考えを変えないことに依存します。

オートマトンを作成して、HD から読み取られる構造 (バイトごとのバイト) が有効であることを検証し、実際に問題がない場合はメモリ内構造を埋めることをお勧めします。プラットフォームとコンパイラの独立性は得られますが、数ミリ秒を失う可能性があります (最新の OS が多くのディスク読み取りキャッシュを行うように見えるほどではありません)。さらに、コードを別の言語に簡単に移植できます。

投稿編集: ある意味で私はあなたに同情します. DOS/Win3.11 の古き良き時代に、BMP ファイルを読み取る C プログラムを作成したことがあります。そして、まったく同じテクニックを使用しました。Windows用にコンパイルしようとするまでは、すべてがうまくいきました-おっと!! Int の長さは 16 ビットではなく 32 ビットになりました。Linux でコンパイルしようとしたとき、gcc には Microsoft C (6.0!) とはビットフィールド割り当てのルールが大きく異なることがわかりました。移植可能にするために、マクロのトリックに頼らなければなりませんでした...

score 4 · Accepted Answer

これは、ByteBuffer (Java NIO) を使用してバイトを読み取るためのリンクです。

http://exampledepot.com/egs/java.nio/ReadChannel.html

score 4 · Accepted Answer

FileInputStream を使用すると、バイト単位で読み取ることができると思います。そのため、FileInputStream でファイルを開き、sizeof(header) を読み込みます。ヘッダーの形式とサイズは固定されていると想定しています。最初の投稿では言及されていませんが、ヘッダーにオプションの引数と異なるサイズがある場合、はるかに複雑になるため、そうであると仮定します。

情報を取得したら、既に読み取ったバッファーの内容を割り当てるヘッダークラスが存在する可能性があります。次に、同様の方法でレコードを解析します。

score 3 · Accepted Answer

データのByteBuffer表現をラップするオブジェクトを作成し、バッファから直接読み取るゲッターを提供します。このようにして、データをバッファーからプリミティブ型にコピーすることを回避します。さらに、MappedByteBufferを使用してバイトバッファーを取得できます。バイナリデータが複雑な場合は、クラスを使用してモデル化し、各クラスにバッファのスライスバージョンを与えることができます。

class SomeHeader {
    private final ByteBuffer buf;
    SomeHeader( ByteBuffer fileBuffer){
       // you may need to set limits accordingly before
       // fileBuffer.limit(...)
       this.buf = fileBuffer.slice();
       // you may need to skip the sliced region
       // fileBuffer.position(endPos)
    }
    public short getVersion(){
        return buf.getShort(POSITION_OF_VERSION_IN_BUFFER);
    }
}

また、バイトバッファーから符号なし値を読み取るためのメソッドも役立ちます。

HTH

score 3 · Accepted Answer

他の人が言及しているように、DataInputStream と Buffers はおそらく Java でバイナリデータを処理するための低レベル API です。

ただし、おそらくConstruct (wiki ページにも良い例があります: http://en.wikipedia.org/wiki/Construct_(python_library)のようなものが必要ですが、Java.

私は (Java バージョンの) オフハンドを知りませんが、そのアプローチ (コードで構造体を宣言的に指定する) を採用することは、おそらく正しい方法です。Javaの適切な流暢なインターフェースを使用すると、おそらく DSL に非常に似たものになるでしょう。

編集:少しグーグルすると、これが明らかになります:

http://javolution.org/api/javolution/io/Struct.html

あなたが探しているのはそのようなものかもしれません。それが機能するかどうかはわかりませんが、始めるには賢明な場所のようです.

score 2 · Accepted Answer

私はこの種のことを Java で行うためのテクニックを書き上げました - ビットフィールドを読み取る古い C ライクなイディオムに似ています。これは単なる開始点ですが、拡張できることに注意してください。

ここ

score 1 · Accepted Answer

少し前に、リフレクションと解析を使用したバイナリデータの読み取りに関するこの記事を見つけました。この場合、作成者はリフレクションを使用して Java バイナリ .class ファイルを読み取ります。ただし、データをクラスファイルに読み込む場合は、役立つ場合があります。

score 1 · Accepted Answer

以前は、DataInputStream を使用して、指定された順序で任意の型のデータを読み取っていました。これでは、ビッグエンディアン/リトルエンディアンの問題を簡単に説明することはできません。

1.4 の時点では、java.nio.Buffer ファミリが適している可能性がありますが、コードは実際にはもっと複雑になるようです。これらのクラスは、エンディアンの問題の処理をサポートしています。

java - Java で構造化されたバイナリ ファイルを読み取る最良の方法

12 に答える 12

Related

Reference

java - Java で構造化されたバイナリファイルを読み取る最良の方法