python - html5lib. html、head、bodyタグを追加せずに有効なhtmlを取得するには?

Question

html5libを使用してユーザーからのカスタム HTML を検証しています。問題は、html5lib がhtml、headおよびbodyタグを追加していることです。これは必要ありません。

parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("simpleTree"))
f = open('/home/user/ex.html')
doc = parser.parse(f)
doc.toxml()
'<html><head/><body><div>\n  <a href="http://speedhunters.com">speedhunters.com\n</a></div><a href="http://speedhunters.com">\n</a></body></html>'

これは検証済みで、サニタイズできますが、これらのタグを削除したり、ツリーに追加したりしないようにするにはどうすればよいですか? つまり、使用を除外replaceします。

score 1 · Accepted Answer

「一般的でない」html を扱っている場合は、lxmlを選択することをお勧めします。

score 1 · Accepted Answer

うわー、html5lib にはひどいドキュメントがあります。

ソースを見て、簡単なテストケースに取り組んでいると、これはうまくいくようです：

import html5lib
from html5lib import treebuilders
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("simpleTree"))
with open('test.html') as test:
    doc = parser.parse(test)
    for child in doc:
        if child.parent.name == "body":
            return child.toxml()

少しハックですが、replace().

python - html5lib. html、head、bodyタグを追加せずに有効なhtmlを取得するには?

3 に答える 3

Related

Reference