Pythonregexpを使用してHTML属性の値をキャプチャできるようにしたい。現在使用しています
re.compile( r'=(["\'].*?["\'])', re.IGNORECASE | re.DOTALL )
私の問題は、属性が一重引用符で始まっているか二重引用符で始まっているかにかかわらず、正規表現に「記憶」させたいということです。
次の属性を持つ現在のアプローチでバグを見つけました
href="javascript:foo('bar')"
私の正規表現がキャッチ
"javascript:foo('