つまり、私の場合は次のとおりです。
- RSS フィードからデータを読み取る
- コンテンツを端末に出力する
そしてもちろん内容はプレーンASCIIではなくutf-8なので「öäå」みたいな文字が出てきます。しかし、テキストを印刷すると、「\ xe4」のようなエスケープですべてが乱雑になります。エンコーディングと関係がありますが、これについて頭を悩ませることはできません。これはとても簡単なことですが、Google fu にはがっかりさせられます。
1 つの例は、コンテンツを単語ごとに調べて、「ö」という文字を見つけようとしている場合です。次のようにします。
if u"ö" in word:
UnicodeDecodeError: 'ascii' コーデックは位置 6 のバイト 0xc3 をデコードできません...
編集:
だから私は自分の問題を見つけたと思います。フィード項目を取得してから str(entry.content) を実行してそれを渡しましたが、その entry.content は Unicode 文字列を値として持つ辞書を保持するリストでした。辞書コンテンツの表現...