python - BeautifulSoup utf-8 デコードエラー

翻译自：https://stackoverflow.com/questions/17866675 2013-07-25T19:06:56.517

1702 次

BeautifulSoup 4 を使用して Web サイトから映画情報を抽出しようとしています。コードの関連部分は次のとおりです。

from bs4 import BeautifulSoup as Soup
import requests

url = r'http://www.the-numbers.com/movies/1997/ASGOD.php' #is passed relevant url
r = requests.get(url)
soup = Soup(r.content, from_encoding = r.encoding)

Web サイトの多くのページでは問題なく動作していますが、この特定のページではエラーメッセージが返されます。

UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 0: invalid start byte

少なくとも、それは通常エラーです。また、時折 (ランダムに見えるように) わずかに異なる領域が表示され、別の位置 (たとえば、229 位の 0xea) にある別のデコードビットについて不平を言うことがあります。

問題ページはこちら。非常によく似ているが実際に機能するものの例はこちらです。

そのページには、ループの BeautifulSoup をスローする何らかのエンコードエラーがあると思います。そのため、そのエラーを修正する方法があるかどうかが私の質問だと思います。

どうもありがとう、アレックス

python - BeautifulSoup utf-8 デコード エラー

0 に答える 0

Related

Reference

python - BeautifulSoup utf-8 デコードエラー