Web ページ ( http://autoweek.com ) を取得して処理しようとしていますが、エンコード エラーが発生します。Autoweek は "iso-8859-1" エンコーディングを宣言し、"Nürburgring" (ウムラウト付きの u) という単語を持っています。
そうです:
# -*- encoding: utf-8 -*-
import urllib
webpage = urllib.urlopen(feed.crawl_url).read()
webpage.decode("utf-8")
次のエラーが表示されます。
'utf8' codec can't decode bytes in position 7768-7773: unsupported Unicode code range"
.decode ステップをバイパスして lxml ライブラリで解析を行うと、解析されたタイトルをデータベースに保存するときにエラーが発生します。
'utf8' codec can't decode bytes in position 45-50: unsupported Unicode code range
私のデータベースには文字セット utf8 と照合 utf-general-ci があります
私の設定:
Django
Python 2.4.3
MySQL 5.0.22
MySQL-python 1.2.1
mod_python 3.2.8