解析されたHTMLドキュメントのDOMツリーを参照する必要があります。
lxmlで文字列を解析する前にuTidyLibを使用しています
a = tidy.parseString(html_code、options)dom = etree.fromstring(str(a))
エラーが発生することがありますが、tidylibは不正な形式のhtmlを修復できないようです。
エラーが発生せずにすべてのHTMLファイルを解析するにはどうすればよいですか(修復できないファイルの一部のみを解析します)?