製品情報のxmlフィードを受け取っています。情報は英語ですが、エンコードされていませんutf-8
(スマートクォート、著作権記号など)。情報を処理するには、に変換する必要がありutf-8
ます。
私は次のバリエーションを試してみました:
u'%s' % data
codecs.open(..., 'utf-8')
unicode(data)
しかし、私が試したすべての人に対して、私はUnicodeDecodeError
(さまざまな種類の)を取得します。
このすべてのテキストをどのように変換しますutf-8
か?
アップデート
助けてくれてありがとう、これがうまくいったものです:
encoded_data = data.decode('ISO 8859-1').encode('utf-8').replace('Â','')
どこから来たのかわかりませんが、Â
著作権記号の横にあるものを見ました。