HTMLページのコンテンツで引用符で囲まれた文字列を識別する正規表現を探していましたが、引用符がHTMLタグの属性の一部である場合はそうではありません.
例:
<p id="123">This is some "quoted text" in a <span class="test">sentence.</span></p>
上記の行では、「引用されたテキスト」文字列を検索したいのですが、id="123" または class="test" は検索したくありません。
いくつか試してみましたが、どれもうまくいきません。
次の REGEX は、上記の例の HTML タグを取得し、文の内容を除外します...しかし、逆のことをしたい:
<[^>]+>