無効な文字を含む XML があります。LXML の XMLParser はこれらの無効な文字に対して例外をスローしますが、recover=Trueオプションで XMLParser を作成すると、不正な文字を無視して正常に動作します。
私の質問は、lxml の iterparse 関数に同様のフラグを設定するにはどうすればよいですか?
再生:
壊れた XML (/tmp/z.xml):
<?xml version="1.0" encoding="utf-8"?>
<items>
<item>
<B>Bad characters:</B>
</item>
</items>
注:「Bad characters:」文字列の後に 2 つの ASCII 文字 #31 (0x1F) があり、ここにコピーして貼り付けることができませんでした。
XMLParser の解析エラー:
fd = open('/tmp/z.xml')
parser = etree.XMLParser()
tree = etree.parse(fd, parser)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "lxml.etree.pyx", line 2576, in lxml.etree.parse (src/lxml/lxml.etree.c:22796)
File "parser.pxi", line 1488, in lxml.etree._parseDocument (src/lxml/lxml.etree.c:60390)
File "parser.pxi", line 1518, in lxml.etree._parseFilelikeDocument (src/lxml/lxml.etree.c:60687)
File "parser.pxi", line 1401, in lxml.etree._parseDocFromFilelike (src/lxml/lxml.etree.c:59658)
File "parser.pxi", line 991, in lxml.etree._BaseParser._parseDocFromFilelike (src/lxml/lxml.etree.c:57303)
File "parser.pxi", line 538, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:53512)
File "parser.pxi", line 624, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:54372)
File "parser.pxi", line 564, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:53770)
lxml.etree.XMLSyntaxError: PCDATA invalid Char value 31, line 4, column 21
悪い文字を無視するために、recover=Trueを設定すると問題なく動作します。
import lxml.etree as etree
fd = open('/tmp/z.xml')
parser = etree.XMLParser(recover=True)
tree = etree.parse(fd, parser)
etree.tostring(tree)
# OUTPUT:
<items>\n\t<item>\n\t\t<B>Bad characters:</B>\n\t</item>\n</items>'
iterparse を使用すると、同じエラーが再び発生しますが、どうすれば悪い文字を無視できますか?
fd = open('/tmp/z.xml')
it = etree.iterparse(fd, events=("start", "end"))
for e in it: print e
...
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "iterparse.pxi", line 498, in lxml.etree.iterparse.__next__ (src/lxml/lxml.etree.c:73245)
File "parser.pxi", line 564, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:53770)
lxml.etree.XMLSyntaxError: PCDATA invalid Char value 31, line 4, column 21