私はxmlパーサーに取り組んでいます。目標は、接頭辞とタグが一貫したままで、名前空間が変更されている多数の異なる xml ファイルを解析することです。
したがって、私は次のいずれかを試しています:
<prefix:tags>
プレフィックスを名前空間で解決(置換)せずにxmlを解析するだけです。プレフィックスは、ドキュメントごとに変更されません。- 名前空間を自動的にロードして、識別子 (
<prefix:tag>
) を適切な名前空間に置き換えることができるようにします。 - タグでxmlを解析するだけです
で試しましたxml.etree.ElementTree
。
また、私を助けることができる lxmlのXMLParserlxml
の構成オプションが見つかりませんでしたが、ここで著者が名前空間を自動的に収集できるはずだと提案している回答を読むことができました。lxml
興味深いことに、parsed_file = etree.XML(file)
次のエラーで失敗します。
lxml.etree.XMLSyntaxError: Start tag expected, '<' not found, line 1, column 1
解析したいファイルの一例はこちら