3

私はウェブサイトを解析しようとしています

blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah 

(これらの多くがあり、トークン化された形式ですべてが必要です)。残念ながら、HTMLは非常に大きく、少し複雑なので、ツリーをクロールしようとすると、ネストされた要素を整理するのに時間がかかる場合があります。これを取得する簡単な方法はありますか?

ありがとう!

4

1 に答える 1

14

aタグのhrefが必要な場合は、次を使用します。

data = """blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah"""

import lxml.html
tree = lxml.html.fromstring(data)
print tree.xpath('//a/@href')

# ['THIS IS WHAT I WANT']
于 2013-02-02T15:59:17.310 に答える