lxml
いくつかのXMLファイルを解析して出力するために使用しようとしています。ただし、XMLファイルにはいくつかの特殊文字があります。複雑すぎてエスケープしたりアンエスケープしたりできないので、交換したくありません。また、他の人に整形式のXMLを作成させることはできません。
Pythonで整形式でないXMLをlxmlで処理できるようにする方法はありますか?
私はそれを正しく読むことができます:
parser = etree.XMLParser(recover=True)
root = etree.parse(sys.argv[1],parser=parser)
ただし、要素テキストを印刷する場合は、特殊文字が出現するまでコンテンツしか印刷できません。
for element in root.iter("content"):
print("%s - %s attr - %s" % (element.tag, element.text, element.get("name")))