イメージ タグのすべてのプロパティを抽出するための RegEx パターンが必要です。
ご存知のように、世の中には不正な形式の HTML がたくさんあるため、パターンはそれらの可能性をカバーする必要があります。
私はこのソリューションを見ていた:
私は次のようなものを思いつきます:
(alt|title|src|height|width)\s*=\s*["'][\W\w]+?["']
私が見逃している可能性や、より効率的な単純なパターンはありますか?
編集:
申し訳ありませんが、より具体的に説明します.NETを使用してこれを行っているため、サーバー側にあります。
私はすでに img タグのリストを持っています。あとはプロパティを解析するだけです。