Java文字列を単語の配列に分割する必要があります。文字列が次のようになっているとしましょう:
"Hi!! I need to split this string, into a serie's of words?!"
現時点ではこれを使用してみましたString[] strs = str.split("(?!\\w)")
が、!などの記号が保持されています。配列内にあり、「Hi!」のような文字列も保持します アレイ内にも。分割する文字列は常に小文字になります。私が望むのは、次のような配列を作成することです
{"hi", "i", "need", "to", "split", "this", "string", "into", "a", "serie's", "of", "words"}
。-アポストロフィが保持されていることに注意してください。
配列にシンボルが含まれないように正規表現を変更するにはどうすればよいですか?
申し訳ありませんが、単語を英数字のシーケンスとしてのみ定義しますが、「it's」などの単語を引用するために使用される場合ではなく、「it's」などの上記のコンテキストにある場合は'文字を含みます。また、この文脈では、「hi」または「hi-person」は単語ではなく、「hi」および「person」は単語です。それが問題を明確にすることを願っています。