非常に大きな XML ファイルを解析し、小文字を使用して句読点を削除しようとしています。問題は、for big files を使用してこのファイルを解析しようとするとcET parse function
、ある時点で不適切な形式のタグまたは文字が発生することsyntax error
です。
SyntaxError: not well-formed (invalid token): line 639337, column 4
注: ファイルを読み取ることはほぼ不可能なので、どこに問題があるのかわかりません。
これをスキップまたは修正するにはどうすればよいですか?
from xml.etree import cElementTree as cET
for event, elem in cET.iterparse(xmlFile, events=("start", "end")):
...do something...