lxml を使用して、XML コンテンツの前後に xml 以外のジャンクが含まれている可能性があるファイルを処理しようとしています。誰かがターミナル バッファをキャプチャしたと想像してください。
user@host: cat /tmp/log.xml
<log>
<foo>...</foo>
<bar>..
...
</bar>
</log>
user@host:
If I hand etree.parse the filename, it chokes on the beginning content. I can delete the first set of lines until I find a line starting with '<' and hand that to etree.parse, but then it chokes on the closing content. The opening and closing non-xml junk could be anything. I could insist on just valid XML in the files, but I'm trying to be sort of tolerant of my input. Any ideas?