これを許可するように正規表現をフォーマットするにはどうすればよいですか?
正規表現は次のとおりです。
"\\b[(\\w'\\-)&&[^0-9]]{4,}\\b"
4 文字以上の単語を探します。
たとえば、記事を分割したい場合、区切られたすべての値と、それらの間のすべての値を最初に表示された順序で含む配列が必要です。次の文: 「私は新しい車を購入する必要があります。私は BMW を好むでしょう。」、分割からの私の望ましい結果は次のようになります。イタリック体の値は区切り記号です。
「私は」、「必要」、「〜」、「購入」、「新しい」、「車両」、「。私」、「だろう」、「」、「好む」、「BMW.」
そのため、4 文字を超えるすべての単語は 1 つのトークンですが、各区切り値の間のすべての単語も 1 つのトークンです (空白を含む複数の単語であっても)。区切られた値のみを変更し、空白、改行など、他のすべてを同じに保ちたい.
別のスレッドで、ルックアラウンドを使用してこれを機能させることができると読みましたが、正しくフォーマットできないようです。これを私が望むように動作させることさえ可能ですか?