python - エンコーディングがutf-8ではなくiso-8859-1であるWebサイトをスクレイピングする：正しいUnicodeをデータベースに保存するにはどうすればよいですか？

Question

恐ろしい問題でいっぱいのPythonを使用してウェブサイトをスクレイプしたいと思います。1つは上部のエンコードが間違っていることです。

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

ページが次のようなオカレンスでいっぱいであるため、これは間違っています。

Nellâ€™ambito

それ以外の

Nell'ambitoâ€™（置き換えに注意してください'）

私が正しく理解していれば、これはutf-8バイト（おそらくデータベースエンコーディング）がiso-8859-1バイト（メタタグの文字セットによって強制される）として解釈されるために発生しています。このリンクhttp://www.i18nqa.com/debug/utf8-debug.htmlでいくつかの最初の説明を見つけました

私はBeautifulSoupを使用してページをナビゲートし、Google App Engineのurlfetchを使用してリクエストを作成していますが、必要なのは、文字â€™列をにエンコードすることで修正される文字列をデータベースに保存する正しい方法を理解することだけです'。

score 8 · Accepted Answer

8

于 2012-05-09T11:55:06.900 に答える

1 に答える 1