私はしばらくの間、htmlタグの属性を見つける作業正規表現を生成しようとしていますが、それらはすべて何らかの形で失敗しているようです。
1 つの html タグをチェックするだけでは、beautifulsoup の読み込みに時間がかかりすぎるため、正規表現を使用します。
チェックする必要があるタグ/プロパティの例を次に示します。
<meta content="http://domain.com/path/path/file.jpg" rnd_attr="blah blah"
property="og:image"/>
タグが「og:image」であることを確認しながら、正規表現でこのタグのコンテンツを取得するにはどうすればよいでしょうか。
この質問が少し素朴であるか、正規表現を生成するのが非常に難しい場合は申し訳ありません。
ボーナス: BeautifulSoup 以外に、Python には DOM パーサリッシュの高速で動作する代替手段はありますか?
ありがとう。