java - Javaで生のutf形式から実際の文字を取得する方法

Question

私はこのようにエンコードされたいくつかの中国語の文字を持っています：

String b = "\\u91d1\\u5143\\u6bd4\\u8054\\u6210\\u957f\\u52a8\\u529b";

文字列bを実際の文字に変更するにはどうすればよいですか。コンソールに出力すると、以下のcが表示されることがわかりました。問題は、文字列bをcに変更する方法です。

String c = "\u91d1\u5143\u6bd4\u8054\u6210\u957f\u52a8\u529b";

score 1 · Accepted Answer

文字列に実際に二重スラッシュが含まれている場合は、文字列を手動でスキャンし、各 "\uXXXX" シーケンスをデコードして実際の UTF-16 表現に置き換える必要があります。例（未テスト）：

StringBuilder buf = new StringBuilder();
char c[2];
for (int i = 0; i < b.length(); i += 7)
{
  int tmp = Integer.parseInt(b.substring(i+3, i+7), 16);
  if (tmp < 0x1000)
  {
    c[0] = (char) tmp;
    c[1] = 0;
  }
  else
  {
    tmp -= 0x10000;
    c[0] = (0xD800 | ((tmp & 0xFFC00) >> 10));
    c[1] = (0xDC00 | (tmp & 0x3FF));
  }
  buf.append(c, 2);
}
b = buf.ToString();

score 0 · Accepted Answer

誰かがトリッキーな解決策を投稿しましたが、私にとっては良いようです:

    b="abc="+b;
    Properties props = new Properties();
    props.load(new StringReader(b));
    b=props.getProperty("abc");
    System.out.println(b);

java - Javaで生のutf形式から実際の文字を取得する方法

2 に答える 2

Related

Reference