したがって、英数字以外の文字でJavaの文字列を分割したいと思います。
現在、私はこのようにやっています
words= Str.split("\\W+");
ただし、アポストロフィ( "'")をそこに保持したいと思います。アポストロフィを保持しながら残りのジャンクをキックする正規表現はありますか?ありがとう。
words = Str.split("[^\\w']+");
キャラクタークラスに追加するだけです。\W
と同等で[^\w]
あり、これに追加できます'
。
ただし、\w
実際にはアンダースコアも含まれていることに注意してください。アンダースコアでも分割する場合は、[^a-zA-Z0-9']
代わりにを使用する必要があります。
基本的な英語の文字には、
words = Str.split("[^a-zA-Z0-9']+");
特殊文字(婚約者など)を含む英語の単語を含める場合、または英語以外の文字を使用する言語の場合は、
words = Str.split("[^\\p{L}0-9']+");