正規表現を使用してサイトを解析しようとしています
blahblahblah
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah
(これらの多くがあり、トークン化された形式ですべてが必要です)。問題は、「ahref」には実際には1つではなく2つのスペースがあることです(取得したくないスペースが1つある「ahref」があるものもあります)。そのため、LXMLを使用するのは非常に面倒であることが証明されています。 (他の理由で)BeautifulSoupを使用したくない。誰かが私がこれを行う方法を知っていますか?
ありがとう!