python - Pythonでlxmlを使用してHTMLドキュメントを解析する

Question

壊れた HTML ドキュメントを解析するために lxml をダウンロードしました。lxml のドキュメントを読んでいましたが、指定された HTML ドキュメントを見つけることができませんでした。lxml を使用してドキュメント内のテキストを取得するにはどうすればよいでしょうか。誰かがこれで私を助けることができれば、私は義務付けられます.

score 1 · Accepted Answer

とても簡単です:

from lxml import html
html_document = ... #Get your document contents here from a file or whatever

tree = html.fromstring(html_document)
text_document = tree.text_content()

特定のブロック (body ブロックなど) のコンテンツのみが必要な場合は、xpath 式を使用してそれらにアクセスできます。

body_tags = tree.xpath('//body')
if body_tags:
  body = body_tags[0]
  text_document = body.text_content()
else:
  text_document = ''

python - Pythonでlxmlを使用してHTMLドキュメントを解析する

1 に答える 1

Related

Reference