Python で正規表現を使用して、この行の HTML から次のデータを取得しています。
<td xyz="123"><a href="blah.html">This is a line</a></td>
問題は、上記の td 行でxyz="123"
と<a href>
がオプションであるため、すべてのテーブル セルに表示されないことです。だから私はこのようなtdsを持つことができます:
<tr><td>New line</td></tr>
<tr><td xyz="123"><a href="blah.html">CaptureThis</a></td></tr>
私は次のように正規表現を書きました:
<tr><td x?y?z?=?"?(\d\d\d)?"?>?<?a?.*?>?(.*?)?<?/?a?>?</td></tr>
基本的に、各 tr のすべての tds から「123」データ (存在する場合) と「CaptureThis」データをキャプチャしたいと考えています。
この正規表現は機能せず、「xyz」データのない行をスキップしています。
ここで正規表現を使用することが適切な解決策ではないことは知っていますが、正規表現だけでできるかどうか疑問に思っていました。