HTML ページを整理して、Python で XML に変換する必要があります。必要に応じて、いくつかの「悪い」部分を失います。
TagSoupは以前から使用していましたが、新しい「記事」、「フッター」タグが理解できず、頭にない「メタ」が気に入らない。結果の XML を処理することがほとんど不可能になります。
これまでのところhtml5lib の機能は気に入っていますが、5 回目のテスト (非常に奇妙なテスト) は失敗しました。解析時
<div attr="val"">
html5lib + xml.dom treebuilder を使用して、結果の XML 文字列で次のようになりました。
<div attr="val" "="">
これは整形式の xml では良い結果ではありません。
ツリービルダーとしてhtml5lib + lxmlを試したところ、
<div attr="val" U00022="">
これは優れていますが、問題はlxmlがタグの終了タグ/スラッシュを「食べる」ことであり、 XMLを出力するときに<link>
それらを作成します。<link ... >
何を使用することをお勧めしますか?