1

恐ろしい問題でいっぱいのPythonを使用してウェブサイトをスクレイプしたいと思います。1つは上部のエンコードが間違っていることです。

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

ページが次のようなオカレンスでいっぱいであるため、これは間違っています。

Nell’ambito

それ以外の

Nell'ambito’(置き換えに注意してください'

私が正しく理解していれば、これはutf-8バイト(おそらくデータベースエンコーディング)がiso-8859-1バイト(メタタグの文字セットによって強制される)として解釈されるために発生しています。このリンクhttp://www.i18nqa.com/debug/utf8-debug.htmlでいくつかの最初の説明を見つけました

私はBeautifulSoupを使用してページをナビゲートし、Google App Engineのurlfetchを使用してリクエストを作成していますが、必要なのは、文字’列をにエンコードすることで修正される文字列をデータベースに保存する正しい方法を理解することだけです'

4

1 に答える 1

8
于 2012-05-09T11:55:06.900 に答える