HTMLのフラグメントを解析しようとしています:
<body><h1>title</h1><img src=""></body>
私は使用しますlxml.html.fromstring
。<body>
そして、フラグメントのタグを削除し続けるため、私は気が狂っています。
> lxml.html.fromstring('<html><h1>a</h1></html>').tag
'html'
> lxml.html.fromstring('<div><h1>a</h1></div>').tag
'div'
> lxml.html.fromstring('<body><h1>a</h1></body>').tag
'h1'
document_fromstring
、fragment_fromstring
、clean_html
withなども試しましたpage_structure=False
...何も機能しません。
html フラグメントを PyQuery に渡すので、lxml を使用する必要があります。
lxml が自分の html フラグメントを台無しにしないようにしたいだけです。それは可能ですか?