1

何か足りないものがありますか? lxml は Web ページのスクラブに使用できますよね? つまり、完璧な html を持っていないものでも?私は BeautifulSoup を使用していましたが、もっと速いものを望んでいます。

ドキュメンテーションを読んだことを誓いますが、Web ページのソースをツリーに変換する方法がわかりません。私が読んだものはすべて、一度に 1 つの要素で、ツリーをゼロから作成することについて述べています。

そうです

from lxml import etree

url = urllib2.urlopen(url)
source = url.read()

そして何?ところで、それが助けになるなら、ソースをユニコードに変えることができます。

4

1 に答える 1

1

HTMLを処理するための専用パッケージであるlxml.htmlパッケージを使用する必要があります。これについては、ドキュメントの第13章で詳しく説明しています。ちなみに、パッケージはlxmlのHTMLパーサーに基づいています。lxml

from lxml import etree, html

htmltree = html.parse(url)

print(etree.tostring(htmltree, pretty_print=True))

さらに、他の人がパッケージをどのように悪用しているかを理解するために、ここここ、およびここにアクセスすることをお勧めします。

于 2013-01-13T12:41:48.857 に答える