Anther コメント内にコメントがある壊れた HTML ページを解析しようとしています。beautifulsoup、lxml、HTMLParser などの有名な HTML パーサーはすべて構文エラーを出しています。以下はコードです。破損したコードの部分を無視してページの残りの部分を解析するにはどうすればよいですか?
<html xmlns="http://www.w3.org/1999/xhtml"><head>
<script language="JavaScript">
<!--
function setTimeOffsetVars (Link) {
// code removed
}
<!-- Image Preloader - takes an array of images to preload -->
function warningCheck(e, warnMsg) {
// code removed
}
-->
</script>
</head>
<body topmargin="0" leftmargin="0" rightmargin="0" bottommargin="0" marginwidth="0" marginheight="0">
<!-- lot of useful code -->
</body></html>