python - ElementTree/lxmlを使用してテキスト文字列の親タグを検索する

翻译自：https://stackoverflow.com/questions/1025129 2009-06-22T00:29:02.890

1633 次

テキストの文字列を取得し、段落/ドキュメントの残りのテキストをhtmlから「抽出」しようとしています。

私の現在のアプローチは、lxmlで解析されたhtml内の文字列の「親タグ」を見つけようとしています。（この問題に取り組むためのより良い方法を知っているなら、私はすべての耳です！）

たとえば、ツリーで「TEXT STRING HERE」を検索し、「p」タグを返します。（HTMLの正確なレイアウトは事前にわからないことに注意してください）

<html>
<head>
...
</head>
<body>
.... 
<div>
...
<p>TEXT STRING HERE ......</p>
...
</html>

ご協力いただきありがとうございます！

1 に答える 1