3

lxmlを使用してhtmlページからすべてのURLとその名前を見つけたいです。

URLを解析してこのことを見つけることができますが、lxmlを使用してすべてのURLリンクを見つける簡単な方法はありますか?

4

2 に答える 2

8
from lxml.html import parse
dom = parse('http://www.google.com/').getroot()
links = dom.cssselect('a')
于 2012-04-30T12:08:44.750 に答える
2
from lxml import etree, cssselect, html

with open("/you/path/index.html", "r") as f:
    fileread = f.read()

dochtml = html.fromstring(fileread)

select = cssselect.CSSSelector("a")
links = [ el.get('href') for el in select(dochtml) ]

links = iter(links)
for n, l in enumerate(links):
    print n, l
于 2014-01-23T19:06:18.523 に答える