Pythonでのエンコーディングに関するもう1つの質問だと思います。私はこのプログラムを持っています:
regex = re.compile(ur'\b[sw]\w+', flags= re.U | re.I)
ergebnisliste = []
for line in fileobject:
print str(line)
erg = regex.findall(line)
ergebnisliste = ergebnisliste + erg
ergebnislistesortiert = sorted(ergebnisliste, key=lambda x: len(x))
print ergebnislistesortiert
fileobject.close()
s または w で始まる単語をテキストファイルで検索しています。私の「ergebnislistesortiert」は、ソートされた結果リストです。結果リストを出力すると、エンコーディングに問題があることがわかります。
['so', 'Wer', 'sp\xc3']
「sp\xc3」はspätとして出力されます。ここで何が問題なのですか?リスト要素が utf-8 なのはなぜですか?
そして、「spät」を印刷するための適切なデコードを取得するにはどうすればよいですか?
どうもありがとう!