c# - 文字列のようなc＃の正規表現（ ""のようなエスケープの処理）

Question

rcファイルから情報を抽出しようとしています。これらのファイルでは、「-文字列の文字は、c＃の逐語的な文字列に類似した2倍（ ""）でエスケープされます。文字列を抽出する方法はありますか？

たとえば、次の文字列「this is a "" test ""」がある場合、これを取得したいのは ""test""です。また、貪欲でない必要があります（非常に重要です）。

次の正規表現を使用してみました。

"(?<text>[^""]*(""(.|""|[^"])*)*)"

しかし、パフォーマンスはひどいものでした。私はここでの説明に基づいています：http：//ad.hominem.org/log/2005/05/quoted_strings.php

正規表現を使用してこれに対処するアイデアはありますか？

score 5 · Accepted Answer

次のようなものを試してください。

(?<=")(?:[^"]|"")*(?=")

これで、一度に2つの引用符のみを使用できるようになりました...または引用符以外の文字を使用できます。後読みと先読みは、実際の一致の前後に引用符があることを示しています。

これにより、何かをキャプチャする必要がなくなります。目的の結果は、必要な完全な文字列になります（外側の引用符は含まれません）。

外側の引用符が2倍になっていないとは断言しません。もしそうなら、とにかくそれらを空の文字列と区別する方法がないからです。

score 2 · Accepted Answer

これは、予想よりもはるかに簡単であることがわかります。引用符がエスケープされた文字列リテラルは、一連の単純な文字列リテラルが一緒に実行されているように見えます。

"Some ""escaped"" quotes"

"Some " + "escaped" + " quotes"

したがって、これを一致させるために必要なのはこれだけです。

(?:"[^"]*")+

別のステップで先頭と末尾の引用符を取り除く必要がありますが、それは大したことではありません。とにかく、エスケープされた引用符（\"または""）をエスケープ解除するには、別の手順が必要になります。

score 0 · Accepted Answer

これがm.buettnerのものより良いか悪いかはわかりませんが（推測しないでください-彼は彼のものを知っているようです）、私は批評のためにそれをそこに捨てると思いました。

"(([^"]+(""[^"]+"")*)*)"

score 0 · Accepted Answer

これを試してみてください(?<=^")(.*?"{2}.*?"{2})(?="$) 。以前の2つよりも高速で、バグはありません。

score 0 · Accepted Answer

"([^"]|(""))*?"

5 に答える 5