regex - 正規表現を使用して、2つの区切り文字の間にある単語の最後の出現箇所を検索します

Question

次のテスト文字列があるとします。

Start_Get_Get_Get_Stop_Start_Get_Get_Stop_Start_Get_Stop

ここで、_は任意の文字を意味します。例：StartaGetbbGetcccGetddddStopeeeeeStart...。

抽出したいのは、StartおよびStop区切り文字内のGetワードの最後の出現です。ここでの結果は、以下の3つの太字のGetになります。

Start__Get__Get__ Get __Stop__Start__Get__ Get __Stop__Start__ Get __Stop

私はこれを正規表現のみを使用して、可能な限り1回のパスで実行したいと考えています。

任意の提案を歓迎します

ありがとう'

score 1 · Accepted Answer

Get(?=(?:(?!Get|Start|Stop).)*Stop)

あなたStartとStop区切り文字は常に適切にバランスが取れており、ネストすることはできないと思います。

score 0 · Accepted Answer

このようなもの、多分：

(?<=Start(?:.Get)*)Get(?=.Stop)

これには、可変長のルックビハインドサポートが必要ですが、すべての正規表現エンジンがサポートしているわけではありません。最初の長さをまたは同様のもの
に変更することで、最大長を作成できます。これは、さらにいくつか（ただしすべてではありません）サポートします。*{0,99}

また、先読みでは、二重アンダースコアがタイプミスであるかどうかに応じて、またはである.必要があります。.+.{1,2}

score 0 · Accepted Answer

私は2つのパスでそれをしたでしょう。最初のパスは「Get」という単語を検索し、2番目のパスはその単語の出現回数をカウントします。

score 0 · Accepted Answer

$ echo "Start_Get_Get_Get_Stop_Start_Get_Get_Stop_Start_Get__Stop" | awk -vRS="Stop" -F"_*" '{print $(NF-1)}'
Get
Get
Get

score 0 · Accepted Answer

Perlで、私はします：

my $test = "Start_Get_Get_Get_Stop_Start_Get_Get_Stop_Start_Get_Stop";
$test =~ s#(?<=Start_)((Get_)*)(Get)(?=_Stop)#$1<FOUND>$3</FOUND>#g;
print $test;

出力：

Start_Get_Get_<FOUND>Get</FOUND>_Stop_Start_Get_<FOUND>Get</FOUND>_Stop_Start_<FOUND>Get</FOUND>_Stop

正規表現のフレーバーに適応する必要があります。

regex - 正規表現を使用して、2つの区切り文字の間にある単語の最後の出現箇所を検索します

5 に答える 5

Related

Reference