urllib2 を使用して Web ページをダウンロードし、MySQL データベースに保存しようとしています。このような :
result_text = result.read()
result_text = result_text.decode('utf-8')
ただし、次のエラーが発生します。
データ: 'utf8' コーデックはバイト 0x88 をデコードできません
現在、HTML メタ タグは、エンコーディングが実際に utf-8 であることを示しています。私はこの行でこれを回避することができました:
result_text = result_text.decode('utf-8','replace')
これは悪い文字を置き換えます。ただし、これがダウンロードしたデータに問題がある可能性があること、または貴重な文字を削除していることを示すものではないかどうかはわかりません. IU は、ページに JavaScript も含まれていることを追加する必要がありますが、これは問題ではないと私は信じています。
なぜこれが起こっているのか誰にも教えてもらえますか?ありがとう