4

lxml を使用して (RSS フィードからの) HTML フラグメントを解析しています。これを効率的に行うために、create_parent='div'. 後で HTML を出力するときに、親 div を含めたくありません。これは、HTML レイアウトでは、div 内の div になるため、まったく不要です。

現在のコード:

from lxml.html import fragment_fromstring

html = fragment_fromstring(html_string, create_parent = 'div')

for tag in html.xpath('//*[@class]'):
    tag.attrib.pop('class')
for tag in html.xpath('//*[@id]'):
    tag.attrib.pop('id')

return lxml.html.tostring(html)

TL;DR: 出力時にラッピング div を削除するにはどうすればよいですか?

4

1 に答える 1

2

子要素を抽出します。

return '\n'.join(lxml.html.tostring(x) for x in html.iterchildren())
于 2013-06-29T15:08:01.010 に答える