java - RegExの使用中に区切り文字を保持する方法は?

Question

句読点と正規表現について質問しましたが、ややこしかったです。

私がこのテキストを持っていると仮定します：

String text = "wor.d1, :word2. wo,rd3? word4!";

私はこれをやっています：

String parts[] = text.split(" ");

そして、私はこれを持っています：

wor.d1, | :word2. | wor,d3? | word4!;

これを得るために私は何をする必要がありますか？(すべてではなく、境界線の記号を保持しますが、指定したもののみ: .,!?:)。

wor,d1 | , | : | word2 | . | wor,d3 | ? | word4 | !

アップデート

これらの正規表現でいくつかの良い結果が得られていますが、単語の先頭の句読点ですべてが分割される前に空の文字が返されます。

最初にこの空の文字を持たない方法はありますか?

この正規表現は良いですか、それとももっと簡単な方法がありますか?

public static final String PUNCTUATION_SEPARATOR =
        "("
        + "("
        + "(?=^[\"'!?.,;:(){}\\[\\]]+)"
        + "|"
        + "(?<=^[\"'!?.,;:(){}\\[\\]]+)"
        + ")"
        + "|"
        + "("
        + "(?=[\"'!?.,;:(){}\\[\\]]+($|\n))"
        + "|"
        + "(?<=[\"'!?.,;:(){}\\[\\]]+($|\n))"
        + ")"
        + ")";

score 2 · Accepted Answer

正規表現を使用してもよろしいですか? 単一の文字で分割するためのより高速な実装があります: StringTokenizer. そして、区切り文字を返すことができます。

String str= "word1, word2. word3? word4!";
String delim = ",.!?";
StringTokenizer st = new StringTokenizer(str, delim, true);
while (st.hasMoreTokens()) {
  String token = st.nextToken();
  ... // token will be: "word1", ",", " word2", ".", etc...
}

score 1 · Accepted Answer

シンプルな区切りには、StringTokenizer をお勧めします。しかし、正規表現と別の補助セパレータを使用したソリューションは次のとおりです。

String s  = "one,two, three   four ,  five";
s = s.replaceAll("([,\\s]+)", "#$1#");
Pattern p = Pattern.compile("#");
String[] result = p.split(s);

score 1 · Accepted Answer

うまくいくと思う正規表現は次のとおりです。

/\s|(?=[\.,:?!](\W|$))|(?<=\W[\.:?!])/

score 0 · Accepted Answer

私の意見では、これが必要です。最初に文字列を分解し、2番目のステップでimplode関数を使用します。

score 0 · Accepted Answer

public static final String PUNCTUATION_SEPARATOR =
    "("
    + "("
    + "(?=^[\"'!?.,;:(){}\\[\\]-]+)"
    + "|"
    + "(?<=^[\"'!?.,;:(){}\\[\\]-]+)"
    + ")"
    + "|"
    + "("
    + "(?=[\"'!?.,;:(){}\\[\\]-]+($|\n))"
    + "|"
    + "(?<=[\"'!?.,;:(){}\\[\\]-]+($|\n))"
    + ")"
    + ")";

java - RegExの使用中に区切り文字を保持する方法は?

アップデート

5 に答える 5

Related

Reference