一部のxml文字エラーが発生するxmlファイルがあります。例:
lxml.etree.XMLSyntaxError: invalid character in attribute value, line 4, column 41976
私はたくさんのことを読んで、それらを試してみましたが、何も役に立ちませんでした。次のような解決策を知りたいです。
1-フォルダー内のすべてのxmlファイルを読み取ったため、それらの多くは通過し、一部は停止します。Pythonでストップを無視するにはどうすればよいですか? 2- エラーが発生する入力ファイルの問題を修正するにはどうすればよいですか?
サンプルコード:
tree = etree.parse(sys.argv[1]+file)
for extraction in tree.findall("TIMEX3"):
value=""
for token in extraction.findall("TOKEN"):
value = value + " " + token.text
エラー:
lxml.etree.XMLSyntaxError: invalid character in attribute value, line 4, column 41976
これを試してみました: https://gist.github.com/lawlesst/4110923 うまくいきませんでした。実際には、正しいファイルでも問題が発生しました。
キャラ41976もチェックしたけど全然いいキャラです。
head -4 file.xml | tail -1 | head -c 41977
これが結果です: 結果の最後の文字:
numchild="0" numbsibling="0"
ありがとう。