python - 印刷された xml データのエンコーディングを変更し、名前空間を削除するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/36919281 2016-04-28T15:34:30.027

61 次

複数の xml ファイルから多くの情報を取得する必要があります。Webscraper を作成しようとしていますが、すべての名前空間を削除している間にエンコーディングに問題があります (コードを参照)。xml ファイルの内容はデンマーク語で書かれており、特殊文字 "æøå" が含まれています。

名前空間を削除しながら、印刷された xml データのファイルエンコーディングを変更するにはどうすればよいですか?

import urllib
from StringIO import StringIO
from xml.etree import ElementTree as ET
import re

url = "http://loremIpsum.co "
xmlString = urllib.urlopen(url).read() #data with namespaces

it = ET.iterparse(StringIO(xmlString))

for _, el in it:
    if '}' in el.tag:
        el.tag = el.tag.split('}', 1)[1]  # strip all namespaces
root = it.root


print root.findtext("loremIpsum/loremIpsum")

root.findtext("loremIpsum/loremIpsum")特殊文字「ø」の場合の現在の印刷出力:

u'\xd8

期待される出力:

ø

python - 印刷された xml データのエンコーディングを変更し、名前空間を削除するにはどうすればよいですか?

0 に答える 0

Related

Reference