LexisNexis (法的データベース) からバッチとしてダウンロードされた多くの個別のドキュメントで構成される HTML ファイルを解析するために BeautifulSoup を使用しようとしています。
私の最初のタスクは、HTML ファイルを構成文書に分割することです。などで囲まれているので簡単だと思い
<DOC NUMBER=1>body of the 1st document</DOC>
ました。ただし、この
<DOC>
タグは HTML タグではなく XML タグです (ファイル内の他のすべてのタグは HTML です)。このため、通常の HTML パーサーでは、このタグはツリーで使用できません。この XML タグを取得するパーサーを bs4 で構築するにはどうすればよいですか? HTML ファイルの関連セクションを囲みます。
<!-- Hide XML section from browser <DOC NUMBER=1> <DOCFULL> --> BODY <!-- Hide XML section from browser </DOCFULL> </DOC> -->