5

HTMLのフラグメントを解析しようとしています:

<body><h1>title</h1><img src=""></body>

私は使用しますlxml.html.fromstring<body>そして、フラグメントのタグを削除し続けるため、私は気が狂っています。

 > lxml.html.fromstring('<html><h1>a</h1></html>').tag
 'html'
 > lxml.html.fromstring('<div><h1>a</h1></div>').tag
 'div'
 > lxml.html.fromstring('<body><h1>a</h1></body>').tag
 'h1'

document_fromstringfragment_fromstringclean_htmlwithなども試しましたpage_structure=False...何も機能しません。

html フラグメントを PyQuery に渡すので、lxml を使用する必要があります。

lxml が自分の html フラグメントを台無しにしないようにしたいだけです。それは可能ですか?

4

1 に答える 1