python - XMLタグとHTMLタグの混合を処理するためにhtml5libパーサーを構築するには?

Question

LexisNexis (法的データベース) からバッチとしてダウンロードされた多くの個別のドキュメントで構成される HTML ファイルを解析するために BeautifulSoup を使用しようとしています。

私の最初のタスクは、HTML ファイルを構成文書に分割することです。などで囲まれているので簡単だと思い <DOC NUMBER=1>body of the 1st document</DOC> ました。
ただし、この<DOC>タグは HTML タグではなく XML タグです (ファイル内の他のすべてのタグは HTML です)。このため、通常の HTML パーサーでは、このタグはツリーで使用できません。
この XML タグを取得するパーサーを bs4 で構築するにはどうすればよいですか? HTML ファイルの関連セクションを囲みます。

 BODY

score 1 · Accepted Answer

BeautifulSoup オブジェクトがインスタンス化されるときに、bs4 で xml を指定できます。

xml_soup = BeautifulSoup(xml_object, 'xml')

これで問題が解決するはずです。このオブジェクトを使用して残りの html を解析できxml_soupますが、html 専用の別のスープオブジェクトをインスタンス化することをお勧めします。

soup = BeautifulSoup(html_object)

1 に答える 1