-1

以下のテキストは、正規表現を使用して巨大なテキストからフィルタリングされています。ここでは、porc と pig を含まない犬と猫を含む文を見つける必要があります。

What, a Dog, a Rat, a Mouse, a Cat to scratch a man to
Where Iuliet liues, and euery Cat and Dog,
Which first (perchance) shee'l proue on Cats and Dogs,
glass, and from setting up memorials of departed cats and dogs.
Thinking,' etc., 1873, p. 82.), "A dog frames a general concept of cats or
dog, who never passed a cat who lay sick in a basket, and was a great

上記のものを見つけるために、正規表現を使用しました:

^(?!.\*porc.\*)(?!.\*pig.\*)(?=.\*\bdog\b.\*)(?=.\*\bcat\b.\*).\*

今、私は3文字以上の犬と猫の間の単語を見つけなければなりません.

私は試した :

^(?!.\*porc.\*)(?!.\*pig.\*)(?=.\*\bdog\b.\*)(?=.\*\bcat\b.\*)dog(?:\s?\w{3,})+cat

うまくいきません。

誰でもそれを解決する方法について考えがありますか?

4

1 に答える 1

0

Java についての私の知識は最高ではないと言って前置きさせてください (私は言語の所属が宣言される前に質問に答えました)。そうは言っても、(私の知る限り)Javaは繰り返されるグループのキャプチャをサポートしていないため、問題には2つの正規表現が必要だと思います。必要なものを説明するために、探している全体的なパターンを検討してください。最初の例 (「なに、犬、ネズミ、ネズミ、人をひっかく猫」) の一致を 2 つのアスタリスクで含めました。

(?P<animal>    // Names the following group "animal" for later reference
    \b(dog|cat)    // **Dog**
)    // Ends "animal" group
[s]?\b\W+    // **, **
(?!\bporc\b\W+|\bpig\b\W+|(?P=animal)\W+)    // Not followed by porc, pig, or characters that match group "animal" (either 'cat' or 'dog')
.*?    // Characters up to first word of three characters or more **a **
(
    (
        (
            (
                (\b\w{3,}\b)    // The (repeated) group you are after (**Rat** / **Mouse**)
            \W+)+    // (**, ** / **, **)
        )
            (?:\b\w{0,2}\b\W+)*    // A group that will not be available after the search (**a ** / **a **)
        )+
    )
(?!    // Not followed by 
    (?P=animal)    // the characters that matched group "animal" above (either dog or cat)
)\b
(cat|dog)[s]{0,1}\b    // Followed by dog or cat, whichever was not the "animal" group above **Cat**

Java は繰り返されるグループの最後のもののみをキャプチャするため (.NET や他の言語で繰り返しグループをキャプチャできるのとは異なります)、おそらく 2 つのステップでクエリを実行する必要があります。最初に、cat(s) または dog(s) と dog(s) または cat(s) の間のすべての文字列を見つける必要があります (グループ 1 がグループ 2 と異なる場合に限ります)。これらの文字列は、次のような正規表現で見つけることができます。

(?P<animal>\b(dog|cat))[s]{0,1}\b\W+(?!\bporc\b\W+|\bpig\b\W+|(?P=animal)\W+)(.*?)(?!(?P=animal))\b(cat|dog)[s]{0,1}\b

(.*?) であるグループ 3 を検索します。

関連する各文字列/文でグループ 3 を特定したら、次のようなものを使用する必要があります (この投稿に基づく)。

Pattern regex = Pattern.compile("\b\w{3,}\b");
Matcher regexMatcher = regex.matcher(subjectString);
while (regexMatcher.find()) {
    // matched text: regexMatcher.group()
    // match start: regexMatcher.start()
    // match end: regexMatcher.end()
} 

残念ながら、犬と猫という単語の間に 3 文字の単語がいくつあるか分からないため、1 つの (合理的な) 正規表現だけを使用して Java で必要なすべての単語を取得することはできません。これが役立つことを願っています。

于 2013-01-18T02:13:21.603 に答える