私はウェブサイトを解析しようとしています
blahblahblah
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah
(これらの多くがあり、トークン化された形式ですべてが必要です)。残念ながら、HTMLは非常に大きく、少し複雑なので、ツリーをクロールしようとすると、ネストされた要素を整理するのに時間がかかる場合があります。これを取得する簡単な方法はありますか?
ありがとう!