19

javaでUnicode Basic Multilingual Planeの外側から文字を(削除する意図で)一致させるにはどうすればよいですか?

4

2 に答える 2

25

BMP以外のすべての文字を削除するには、次のように機能する必要があります。

String sanitizedString = inputString.replaceAll("[^\u0000-\uFFFF]", "");
于 2010-10-27T17:19:54.627 に答える
4

BMP 以外の特定の文字またはすべての文字を探していますか?

前者の場合、 a を使用しStringBuilderて、より高い平面からのコード ポイントを含む文字列を作成でき、正規表現は期待どおりに機能します。

  String test = new StringBuilder().append("test").appendCodePoint(0x10300).append("test").toString();
  Pattern regex = Pattern.compile(new StringBuilder().appendCodePoint(0x10300).toString());

  Matcher matcher = regex.matcher(test);
  matcher.find();
  System.out.println(matcher.start());

BMP 以外のすべての文字を文字列から削除する場合StringBuilderは、正規表現ではなく直接使用します。

  StringBuilder sb = new StringBuilder(test.length());
  for (int ii = 0 ; ii < test.length() ; )
  {
     int codePoint = test.codePointAt(ii);
     if (codePoint > 0xFFFF)
     {
        ii += Character.charCount(codePoint);
     }
     else
     {
        sb.appendCodePoint(codePoint);
        ii++;
     }
  }
于 2010-10-27T17:10:57.370 に答える