5

LexisNexis (法的データベース) からバッチとしてダウンロードされた多くの個別のドキュメントで構成される HTML ファイルを解析するために BeautifulSoup を使用しようとしています。

  • 私の最初のタスクは、HTML ファイルを構成文書に分割することです。などで囲まれているので簡単だと思い <DOC NUMBER=1>body of the 1st document</DOC> ました。

  • ただし、この<DOC>タグは HTML タグではなく XML タグです (ファイル内の他のすべてのタグは HTML です)。このため、通常の HTML パーサーでは、このタグはツリーで使用できません。

  • この XML タグを取得するパーサーを bs4 で構築するにはどうすればよいですか? HTML ファイルの関連セクションを囲みます。

    <!-- Hide XML section from browser <DOC NUMBER=1> <DOCFULL> --> BODY <!-- Hide XML section from browser </DOCFULL> </DOC> -->

4

1 に答える 1

1

BeautifulSoup オブジェクトがインスタンス化されるときに、bs4 で xml を指定できます。

xml_soup = BeautifulSoup(xml_object, 'xml')

これで問題が解決するはずです。このオブジェクトを使用して残りの html を解析できxml_soupますが、html 専用の別のスープ オブジェクトをインスタンス化することをお勧めします。

soup = BeautifulSoup(html_object)
于 2013-03-25T20:43:19.923 に答える