何か足りないものがありますか? lxml は Web ページのスクラブに使用できますよね? つまり、完璧な html を持っていないものでも?私は BeautifulSoup を使用していましたが、もっと速いものを望んでいます。
ドキュメンテーションを読んだことを誓いますが、Web ページのソースをツリーに変換する方法がわかりません。私が読んだものはすべて、一度に 1 つの要素で、ツリーをゼロから作成することについて述べています。
そうです
from lxml import etree
url = urllib2.urlopen(url)
source = url.read()
そして何?ところで、それが助けになるなら、ソースをユニコードに変えることができます。