恐ろしい問題でいっぱいのPythonを使用してウェブサイトをスクレイプしたいと思います。1つは上部のエンコードが間違っていることです。
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
ページが次のようなオカレンスでいっぱいであるため、これは間違っています。
Nell’ambito
それ以外の
Nell'ambito
’
(置き換えに注意してください'
)
私が正しく理解していれば、これはutf-8バイト(おそらくデータベースエンコーディング)がiso-8859-1バイト(メタタグの文字セットによって強制される)として解釈されるために発生しています。このリンクhttp://www.i18nqa.com/debug/utf8-debug.htmlでいくつかの最初の説明を見つけました
私はBeautifulSoupを使用してページをナビゲートし、Google App Engineのurlfetchを使用してリクエストを作成していますが、必要なのは、文字’
列をにエンコードすることで修正される文字列をデータベースに保存する正しい方法を理解することだけです'
。