不正な形式のhtmlページを処理しているため、クリーンアップを行う必要があります。http://validator.w3.org/ Tidy関数は、私が望む正確な出力を生成します。ただし、より大きなPythonスクリプトの一部としてHTMLファイルをクリーンアップしたいと思います。私は試した:
from tidylib import tidy_document
tidy, errors = tidy_document(html)
ただし、tidylibは正常に機能しますが、出力はw3の場合ほど「美しく」はありません。w3cマークアップ検証サービス用のライブラリも見つかりましたが、HTMLをクリーンアップする方法が見つかりませんでした。私の質問は、Pythonスクリプト(外部のプログラム/ Webソリューションを呼び出す場合があります)を使用してHTMLをクリーンアップする最良の方法は何ですか?w3によって出力される最良の方法です。tidylibで追加のオプションを使用する必要がある場合、w3cマークアップ検証サービス用の適切なメソッドがライブラリにありますか、それとも別の方法を試す必要があります。ポインタ/コードスニペットは非常に応用されています。