python - Pythonで不正な形式のHTMLを解析する方法

Question

解析されたHTMLドキュメントのDOMツリーを参照する必要があります。

lxmlで文字列を解析する前にuTidyLibを使用しています

a = tidy.parseString（html_code、options）dom = etree.fromstring（str（a））

エラーが発生することがありますが、tidylibは不正な形式のhtmlを修復できないようです。

エラーが発生せずにすべてのHTMLファイルを解析するにはどうすればよいですか（修復できないファイルの一部のみを解析します）？

score 25 · Accepted Answer

Beautiful Soupは、無効な/壊れたHTMLでうまく機能します

>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup("<htm@)($*><body><table <tr><td>hi</tr></td></body><html")
>>> print soup.prettify()
<htm>
 <body>
  <table>
   <tr>
    <td>
     hi
    </td>
   </tr>
  </table>
 </body>
</htm>

score 13 · Accepted Answer

すでにlxmlを使用しているので、lxmlの ElementSoupモジュールを試しましたか？

ElementSoupがHTMLを修復できない場合は、データがどのように壊れているかについての独自の観察に基づいた独自のフィルターを最初に適用する必要があります。

python - Pythonで不正な形式のHTMLを解析する方法

2 に答える 2

Related

Reference