python - ドキュメントから XML タグを削除する Python

Question

初心者の言語であるPythonを使用して、ドキュメントからXMLタグを削除しようとしています。これは、正規表現を使用した最初の試みですが、これは本当に最善のアイデアでした。

mfile = file("somefile.xml","w")

for line in mfile:
    re.sub('<./>',"",line) #trying to match elements between < and />

それは惨めに失敗しました。正規表現でどのように行うべきか知りたいです。

これはうまくいくようです。しかし、すべての xml タグを取り除く簡単な方法はありますか? 多分ElementTreeを使用していますか？

score 24 · Accepted Answer

これを行う最も信頼できる方法は、おそらくLXMLを使用することです。

from lxml import etree
...
tree = etree.parse('somefile.xml')
notags = etree.tostring(tree, encoding='utf8', method='text')
print(notags)

正規表現を使用して XML を「解析」する際の問題を回避し、エスケープやすべてを正しく処理する必要があります。

score 15 · Accepted Answer

lxml外部ライブラリを必要としないジェレミアの答えの代替：

import xml.etree.ElementTree as ET
...
tree = ET.fromstring(Text)
notags = ET.tostring(tree, encoding='utf8', method='text')
print(notags)

Python >= 2.5 で動作するはずです

score 4 · Accepted Answer

通常、正規表現で行うのは通常ではないことに注意してください。エレミヤの答えを参照してください。

これを試して：

import re

text = re.sub('<[^<]+>', "", open("/path/to/file").read())
with open("/path/to/file", "w") as f:
    f.write(text)

3 に答える 3