1

HTMLページのコンテンツで引用符で囲まれた文字列を識別する正規表現を探していましたが、引用符がHTMLタグの属性の一部である場合はそうではありません.

例:

<p id="123">This is some "quoted text" in a <span class="test">sentence.</span></p>

上記の行では、「引用されたテキスト」文字列を検索したいのですが、id="123" または class="test" は検索したくありません。

いくつか試してみましたが、どれもうまくいきません。

次の REGEX は、上記の例の HTML タグを取得し、文の内容を除外します...しかし、逆のことをしたい:

<[^>]+>
4

2 に答える 2

3

HTML を解析して有用なものを取得したい場合は、HTMLAgilityPackを使用します。これにより、このようなことをかなり簡単に行うことができます。

参照:正規表現を使用して HTML を解析することはできません

于 2013-03-19T14:59:02.277 に答える
0

この特定の状況では、私はあなたが多くの保証を持っているとは思わない。引用符で囲まれた文字列をHTMLのスニペット内にまとめる方法については、オプションが多すぎます。ただし、上記の特定の例に基づいて、次の式は「引用符で囲まれたテキスト」を検索します。

(?<=(?:^|>)[^<>]*)"[^"]+"(?=[^<>]*(?:<|$))
于 2013-03-19T15:05:39.707 に答える