html5libを使用してユーザーからのカスタム HTML を検証しています。問題は、html5lib がhtml
、head
およびbody
タグを追加していることです。これは必要ありません。
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("simpleTree"))
f = open('/home/user/ex.html')
doc = parser.parse(f)
doc.toxml()
'<html><head/><body><div>\n <a href="http://speedhunters.com">speedhunters.com\n</a></div><a href="http://speedhunters.com">\n</a></body></html>'
これは検証済みで、サニタイズできますが、これらのタグを削除したり、ツリーに追加したりしないようにするにはどうすればよいですか? つまり、使用を除外replace
します。