一部の html からすべてのスタイル属性を削除しています。正規表現を使用できます
/style=("[^"]"|'[^']')/
しかし、これは非効率ではないでしょうか (負の一致のため)。また、引用符を含む可能性のあるスタイル属性 (背景画像など) に対して脆弱であることもわかっています。
有効なスタイル文字列に一致させるために使用できる正規表現はありますか?それとも、正規表現を使用して html を解析するのと同様に、これは一般的に正規表現で実行するには難しすぎますか?
*編集これは(私が思うに)私がスクレイピングしているhtmlで最もトリッキーなスタイル文字列です
style="FONT-SIZE: 10pt; COLOR: black; FONT-FAMILY: 'Verdana','sans-serif'; mso-fareast-font-family: 'Times New Roman'"