テキスト ファイル (test.txt) では、文字列は次のようになります。
Gro\u00DFbritannien
それを読むと、python はバックスラッシュをエスケープします:
>>> file = open('test.txt', 'r')
>>> input = file.readline()
>>> input
'Gro\\u00DFbritannien'
これをユニコードとして解釈するにはどうすればよいですか? decode()
そしてunicode()
仕事をしません。
次のコードはファイルに書きGro\u00DFbritannien
戻しますが、Großbritannien
>>> input.decode('latin-1')
u'Gro\\u00DFbritannien'
>>> out = codecs.open('out.txt', 'w', 'utf-8')
>>> out.write(input)