2

テキストの文字列を取得し、段落/ドキュメントの残りのテキストをhtmlから「抽出」しようとしています。

私の現在のアプローチは、lxmlで解析されたhtml内の文字列の「親タグ」を見つけようとしています。(この問題に取り組むためのより良い方法を知っているなら、私はすべての耳です!)

たとえば、ツリーで「TEXT STRING HERE」を検索し、「p」タグを返します。(HTMLの正確なレイアウトは事前にわからないことに注意してください)

<html>
<head>
...
</head>
<body>
.... 
<div>
...
<p>TEXT STRING HERE ......</p>
...
</html>

ご協力いただきありがとうございます!

4

1 に答える 1