複数の xml ファイルから多くの情報を取得する必要があります。Webscraper を作成しようとしていますが、すべての名前空間を削除している間にエンコーディングに問題があります (コードを参照)。xml ファイルの内容はデンマーク語で書かれており、特殊文字 "æøå" が含まれています。
名前空間を削除しながら、印刷された xml データのファイル エンコーディングを変更するにはどうすればよいですか?
import urllib
from StringIO import StringIO
from xml.etree import ElementTree as ET
import re
url = "http://loremIpsum.co "
xmlString = urllib.urlopen(url).read() #data with namespaces
it = ET.iterparse(StringIO(xmlString))
for _, el in it:
if '}' in el.tag:
el.tag = el.tag.split('}', 1)[1] # strip all namespaces
root = it.root
print root.findtext("loremIpsum/loremIpsum")
root.findtext("loremIpsum/loremIpsum")
特殊文字「ø」の場合の現在の印刷出力:
u'\xd8
期待される出力:
ø