私は、html5lib を使用して自由に html を解析しているアプリケーションを持っています。私は実際の DOM API が必要であり、ElementTree は私がやっていることには適していないため、minidom インターフェースを使用します。
これが私がこれを行う方法です:
parser = html5lib.XHTMLParser(tree=html5lib.treebuilders.getTreeBuilder('dom'))
parser.parse(html)
ただし、巨大なファイルの解析がパフォーマンスのボトルネックになりつつあり、lxml の解析は html5lib よりも約 80 倍高速です (ベンチマークしました)。
lxml または同様に高速な bad-html-tolerant ライブラリで解析し、DOM 互換 API で操作するにはどうすればよいですか?