0

複数の xml ファイルから多くの情報を取得する必要があります。Webscraper を作成しようとしていますが、すべての名前空間を削除している間にエンコーディングに問題があります (コードを参照)。xml ファイルの内容はデンマーク語で書かれており、特殊文字 "æøå" が含まれています。

名前空間を削除しながら、印刷された xml データのファイル エンコーディングを変更するにはどうすればよいですか?

import urllib
from StringIO import StringIO
from xml.etree import ElementTree as ET
import re

url = "http://loremIpsum.co "
xmlString = urllib.urlopen(url).read() #data with namespaces

it = ET.iterparse(StringIO(xmlString))

for _, el in it:
    if '}' in el.tag:
        el.tag = el.tag.split('}', 1)[1]  # strip all namespaces
root = it.root


print root.findtext("loremIpsum/loremIpsum")

root.findtext("loremIpsum/loremIpsum")特殊文字「ø」の場合の現在の印刷出力:

u'\xd8

期待される出力:

ø
4

0 に答える 0