初心者の言語であるPythonを使用して、ドキュメントからXMLタグを削除しようとしています。これは、正規表現を使用した最初の試みですが、これは本当に最善のアイデアでした。
mfile = file("somefile.xml","w")
for line in mfile:
re.sub('<./>',"",line) #trying to match elements between < and />
それは惨めに失敗しました。正規表現でどのように行うべきか知りたいです。
第二に、私はグーグルで見つけました:http://code.activestate.com/recipes/440481-strips-xmlhtml-tags-from-string/
これはうまくいくようです。しかし、すべての xml タグを取り除く簡単な方法はありますか? 多分ElementTreeを使用していますか?