java - Java byte[] から文字列への変換

Question

このjunitテストが失敗するのはなぜですか?

import org.junit.Assert;
import org.junit.Test;

import java.io.UnsupportedEncodingException;

public class TestBytes {
    @Test
    public void testBytes() throws UnsupportedEncodingException {
        byte[] bytes = new byte[]{0, -121, -80, 116, -62};
        String string = new String(bytes, "UTF-8");
        byte[] bytes2 = string.getBytes("UTF-8");
        System.out.print("bytes2: [");
        for (byte b : bytes2) System.out.print(b + ", ");
        System.out.print("]\n");
        Assert.assertArrayEquals(bytes, bytes2);
    }
}

着信バイト配列が結果と等しいと仮定しますが、どういうわけか、おそらく UTF-8 文字が 2 バイトかかるという事実が原因で、内容と長さの両方で結果配列が着信配列と異なります。

教えてください。

score 4 · Accepted Answer

その理由は0, -121, -80, 116, -62、有効な UTF-8 バイトシーケンスではないためです。new String(bytes, "UTF-8") は、このような状況で例外をスローしませんが、結果を予測するのは困難です。http://en.wikipedia.org/wiki/UTF-8 無効なバイトシーケンスセクションを参照してください。

score 1 · Accepted Answer

配列バイトには負の値が含まれており、これらには 8 番目のビット (bit7) が設定されており、マルチバイトシーケンスとして UTF-8 に変換されます。範囲 0..127 の値を持つバイトのみを使用する場合、bytes2 は bytes と同じになります。指定されたバイトのコピーを作成するには、たとえば arraycopy メソッドを使用できます。

    byte[] bytes3 = new byte[bytes.length];
    System.arraycopy(bytes, 0, bytes3, 0, bytes.length);

java - Java byte[] から文字列への変換

2 に答える 2

Related

Reference