文字列から文字とマーク (Unicode カテゴリ) 以外のすべての文字を削除する必要があります。現在、次のように文字列を分割してから結合しています。
text.split("[\\p{P} \\t\\n\\r]")
ただし、私の正規表現は...まったく不十分です。助けてください。
編集 これはうまくいくと思います:
text.split("[\\P{M}\\P{L}]")
これを試して:
text = text.replaceAll("[^\\p{L}\\p{M}]", "");
http://www.regular-expressions.info/unicode.htmlで詳細を参照してください