.net - 引用符で囲まれた文字列を検索しますが、HTML タグ内では検索しない正規表現

Question

HTMLページのコンテンツで引用符で囲まれた文字列を識別する正規表現を探していましたが、引用符がHTMLタグの属性の一部である場合はそうではありません.

例：

<p id="123">This is some "quoted text" in a <span class="test">sentence.</span></p>

上記の行では、「引用されたテキスト」文字列を検索したいのですが、id="123" または class="test" は検索したくありません。

いくつか試してみましたが、どれもうまくいきません。

次の REGEX は、上記の例の HTML タグを取得し、文の内容を除外します...しかし、逆のことをしたい:

<[^>]+>

score 3 · Accepted Answer

HTML を解析して有用なものを取得したい場合は、HTMLAgilityPackを使用します。これにより、このようなことをかなり簡単に行うことができます。

score 0 · Accepted Answer

この特定の状況では、私はあなたが多くの保証を持っているとは思わない。引用符で囲まれた文字列をHTMLのスニペット内にまとめる方法については、オプションが多すぎます。ただし、上記の特定の例に基づいて、次の式は「引用符で囲まれたテキスト」を検索します。

(?<=(?:^|>)[^<>]*)"[^"]+"(?=[^<>]*(?:<|$))

2 に答える 2