タグ間のドキュメントとプロパティを説明するフォーマットが不十分なXMLを含む大きな(〜50Mb)ファイルがあり、すべての英語のドキュメントからテキストを抽出し<item> </item>
たいと思います。
Pythonの標準XML解析ユーティリティ(dom、sax、expat)は不適切なフォーマットを抑制し、より寛容なライブラリ(sgmllib、BeautifulSoup)はファイル全体を解析し、時間がかかりすぎます。
<item>
<title>some title</title>
<author>john doe</author>
<lang>en</lang>
<document> .... </document>
</item>
ドキュメント全体を解析せずにテキスト<document> </document>
を抽出する方法を知っている人はいますか?lang=en
追加情報:「フォーマットが不十分」である理由
一部のドキュメントには<dc:link></dc:link>
、パーサーで問題を引き起こす属性があります。Pythonのxml.minidomは次のように文句を言います。
ExpatError: unbound prefix: line 13, column 0