web-scraping - lxml: Web ページのソースをスクレイピング用の要素ツリーに変換します

Question

何か足りないものがありますか? lxml は Web ページのスクラブに使用できますよね? つまり、完璧な html を持っていないものでも？私は BeautifulSoup を使用していましたが、もっと速いものを望んでいます。

ドキュメンテーションを読んだことを誓いますが、Web ページのソースをツリーに変換する方法がわかりません。私が読んだものはすべて、一度に 1 つの要素で、ツリーをゼロから作成することについて述べています。

そうです

from lxml import etree

url = urllib2.urlopen(url)
source = url.read()

そして何？ところで、それが助けになるなら、ソースをユニコードに変えることができます。

score 1 · Accepted Answer

HTMLを処理するための専用パッケージであるlxml.htmlパッケージを使用する必要があります。これについては、ドキュメントの第13章で詳しく説明しています。ちなみに、パッケージはlxmlのHTMLパーサーに基づいています。lxml

図

from lxml import etree, html

htmltree = html.parse(url)

print(etree.tostring(htmltree, pretty_print=True))

さらに、他の人がパッケージをどのように悪用しているかを理解するために、ここ、ここ、およびここにアクセスすることをお勧めします。

1 に答える 1