0

壊れた HTML ドキュメントを解析するために lxml をダウンロードしました。lxml のドキュメントを読んでいましたが、指定された HTML ドキュメントを見つけることができませんでした。lxml を使用してドキュメント内のテキストを取得するにはどうすればよいでしょうか。誰かがこれで私を助けることができれば、私は義務付けられます.

4

1 に答える 1

1

とても簡単です:

from lxml import html
html_document = ... #Get your document contents here from a file or whatever

tree = html.fromstring(html_document)
text_document = tree.text_content()

特定のブロック (body ブロックなど) のコンテンツのみが必要な場合は、xpath 式を使用してそれらにアクセスできます。

body_tags = tree.xpath('//body')
if body_tags:
  body = body_tags[0]
  text_document = body.text_content()
else:
  text_document = ''
于 2012-08-22T13:12:35.480 に答える