通常、文字列から単語以外の文字を削除するには、次のreplaceAll
メソッドを使用できます。
String cleanWords = "some string with non-words such as ';'".replaceAll("\\W", "");
上記は、クリーンアップされた文字列「somestringwithnonwordssuchas」を返します。
ただし、文字列にキリル文字が含まれている場合、それらは非単語として認識され、文字列から削除されます。キリル文字が残ることが予想されます。したがって、質問。
文字列にUTF-8エンコーディングがあると仮定して、言語に関係なく単語以外の文字を削除するタスクを処理する適切な方法は何ですか?