character-encoding - テキストのエンコーディングを決定するのに助けが必要

Question

score 4 · Accepted Answer

したがって、元の文字列は最初に utf8 としてエンコードされ、次に iso-8859-1 で解釈され、結果が再び utf-8 としてエンコードされます。Javaで与えられた解決策。raw バイトアクセスがあると仮定します。それ以外の場合は、それらを取得するためにより多くのコードが必要になります。

//The underlying bytes are these, based on the characters being displayed in windows-1251

byte[] rawBytes = {(byte)0xc3,(byte)0x90,(byte)0xc2,(byte)0x9f,(byte)0xc3,(byte)0x90,(byte)0xc2,
                    (byte)0xbe,(byte)0xc3,(byte)0x90,(byte)0xc2,(byte)0xbb,(byte)0xc3,(byte)0x90,
                    (byte)0xc2,(byte)0xbd,(byte)0xc3,(byte)0x91,(byte)0xc2,(byte)0x8b,(byte)0xc3,
                    (byte)0x90,(byte)0xc2,(byte)0xb9,(byte)0x20,(byte)0xc3,(byte)0x90,(byte)0xc2,
                    (byte)0xba,(byte)0xc3,(byte)0x90,(byte)0xc2,(byte)0xb0,(byte)0xc3,(byte)0x90,
                    (byte)0xc2,(byte)0xb4,(byte)0xc3,(byte)0x91,(byte)0xc2,(byte)0x80};

//alternatively this will work just as well:
//Charset windows1251 = Charset.forName("Windows-1251");
//byte[] rawBytes = windows1251.encode("ГђВџГђВѕГђВ»ГђВЅГ‘В‹ГђВ№ ГђВєГђВ°ГђВґГ‘ВЂ").array();

Charset utf8 = Charset.forName("utf-8");
String asUTF8 = utf8.decode(ByteBuffer.wrap(rawBytes)).toString();

//Intermediate step required to convert the intermediate string
//to byte[] again. Iso-8859-1 is used because it maps 256 first 
//unicode points exactly to byte values of 0-255

Charset iso88591 = Charset.forName( "ISO-8859-1");
byte[] bytes = iso88591.encode(asUTF8).array();

String finalResult = utf8.decode( ByteBuffer.wrap(bytes)).toString();
System.out.println(finalResult);
//Полный кадр

character-encoding - テキストのエンコーディングを決定するのに助けが必要

1 に答える 1

Related

Reference