1

カンマ区切りのペア文字列を分割しようとしていますが、包括的カンマに対応する方法がわかりません。

これが私のテストケースです-

private void stringSplit() {
   String value = "{aaa=1111,bbb=2222,ccc=3333}";
   String regEx = "[^,]+=[^,]+";
   String separator = "=";
   final Pattern pattern = Pattern.compile(regEx);
   final Matcher matcher = pattern.matcher(value);
   while (matcher.find()) {
      final String group = matcher.group();
      final String key = group.substring(0, group.indexOf(separator));
      final String val =
         group.substring(
            group.indexOf( separator ) + separator.length(),
            group.length());
      System.out.println("key [" + key + "], val [" + val + "]");
   }
}

そしてここに私の結果があります-

key [{aaa], val [1111]
key [bbb], val [2222]
key [ccc], val [3333}]

これまでのところすべて良い...

ただし、数値にコンマが含まれている場合があります。

"{aaa=11,11,bbb=2222,ccc=333,3}";

私が望む結果は-

key [{aaa], val [11,11]
key [bbb], val [2222]
key [ccc], val [333,3}]

正規表現の第一人者の誰かがここで私を助けてくれませんか。

ありがとう!

編集

@bmorris591からさらにコメントが続きます。

わかりました。最後のクエリがあります。これは、このクレイジーな正規表現(+少しのJavaコード)が処理する必要があるものの決定的なリストです。

これが私のコードです-

private void stringSplit() {
    String value = "{1=\"1, one\", 22=\"+t,w,o\", 333=\"three, \"3\", -33,,333,\", 4444=\"four. '4-4, (44),  -44\"}, 555=\"\", \"666\"=6666, \"777\"=\"7777\"}";
    String regex = "[^\\{,]+=([[\\w]\\(\\)\\-\\+\\.\"'\\s,]+)[,}]";
    String separator = "=";
    final Pattern pattern = Pattern.compile(regex);
    final Matcher matcher = pattern.matcher(value);
    while (matcher.find()) {
        final String group = matcher.group();
        showKeyAndValue(group, separator);
    }
}

private void showKeyAndValue(final String group, final String keyValueSeparator) {
    System.out.println("group [" + group + "]");
    final String key = removeQuotesFromString(group.substring(0,
            group.indexOf(keyValueSeparator)));
    final String val = removeQuotesFromString(group.substring(
            group.indexOf(keyValueSeparator)
                    + keyValueSeparator.length(), group.length()));
    System.out.println("key [" + key + "], val [" + val + "]");
}

private String removeQuotesFromString(final String str) {
    String returnString = str.trim();
    if (returnString.startsWith("\"")) {
        returnString = returnString.substring(
                returnString.indexOf("\"") + 1, returnString
                        .lastIndexOf("\""));
    }
    return returnString;
}

そしてここに結果があります-

group [1="1, one",]
key [1], val [1, one]
group [ 22="+t,w,o",]
key [22], val [+t,w,o]
group [ 333="three, "3", -33,,333,",]
key [333], val [three, "3", -33,,333,]
group [ 4444="four. '4-4, (44),  -44"}]
key [4444], val [four. '4-4, (44),  -44]
group [ 555="",]
key [555], val []
group [ "666"=6666,]
key [666], val [6666,]
group [ "777"="7777"}]
key [777], val [7777]

キー666を除いて、すべての結果は正しいです。ご覧のとおり、末尾にコンマがあります。これで(引用符で囲まれていない(基本的には数値))これを取り除くことができますが、これは「よりクリーンな」ソリューションになるため、正規表現でこれを実現できるかどうか疑問に思っていました...

何か考えていただければ幸いです。

4

2 に答える 2

2

負の先読みの魔法を使用して、文字列をカンマで分割し、その後に数字を使用できません

public static void main(String[] args) {
    final String s = "{aaa=11,11,bbb=2222,ccc=333,3}";
    final String[] ss = s.substring(1, s.length() -1).split(",(?!\\d)");
    for(final String str : ss) {
        System.out.println(str);
    }
}

出力

aaa=11,11
bbb=2222
ccc=333,3

これを簡単に展開して、キー=値のペアを直接ヤンクできます

public static void main(String[] args) {
    final String s = "{aaa=11,11,bbb=2222,ccc=333,3}";
    final Pattern p = Pattern.compile("([A-Za-z]++)=([\\d,]+)(?!\\d)[,}]");
    final Matcher matcher = p.matcher(s);
    while (matcher.find()) {
        System.out.println(matcher.group(1));
        System.out.println(matcher.group(2));
        System.out.println("DONE");
    }
}

出力

aaa
11,11
DONE
bbb
2222
DONE
ccc
333,3
DONE

編集

OPのコメントに続いて:

ペアの値の部分は英数字 ( を含む,+-*/=()) であり、値は常に引用符で囲まれてい,+-*/=()ます。

表現を次のように修正しました。

public static void main(String[] args) {
    final String s = "{1=\"1, one\", 22=\"+t,w,o\", 333=\"three, 3, -33,,333\", 4444=\"four. 4-4, (44), -44\"}";
    System.out.println("String is: " + s);
    final Pattern p = Pattern.compile("([^{=,\\s]++)=\"([^\"]++)\"");
    final Matcher matcher = p.matcher(s);
    while (matcher.find()) {
        System.out.println(matcher.group(1));
        System.out.println(matcher.group(2));
        System.out.println("DONE");
    }

出力:

String is: {1="1, one", 22="+t,w,o", 333="three, 3, -33,,333", 4444="four. 4-4, (44), -44"}
1
1, one
DONE
22
+t,w,o
DONE
333
three, 3, -33,,333
DONE
4444
four. 4-4, (44), -44
DONE

=,{パターンは、そうでないもの、または空白の後に が続き、その後にカプセル化された=を含まないパターンが続くものに一致します。これは役に立ちますか?""

于 2013-03-19T17:01:42.440 に答える
0

bmorris591

お返事をありがとうございます。

申し訳ありませんが、元の投稿を振り返ってみると、少し単純すぎました。

ペアのの部分は英数字 (",+-*/=()" を含む) で、値は常に引用符で囲まれます。",+-*/=()" も複数出現する可能性があります。 .

すなわち

"{1=\"1 one\", 22=\"two\", 333=\"three 3\"}"
"{1=\"1, one\", 22=\"+t,w,o\", 333=\"three, 3, -33,,333\", 4444=\"four. 4-4, (44), -44\"}"

これは複雑であるため、最も簡単な解決策は、ペア文字列が構築される前に、すべてのコンマをマーカー文字に置き換え、正規表現を実行してから値にコンマを再適用することだと思います...

それは私の最初の質問に対する解決策であるため、私の最初の投稿に返信していただきありがとうございます...

于 2013-03-21T10:50:55.957 に答える