BeautifulSoup 4 を使用して Web サイトから映画情報を抽出しようとしています。コードの関連部分は次のとおりです。
from bs4 import BeautifulSoup as Soup
import requests
url = r'http://www.the-numbers.com/movies/1997/ASGOD.php' #is passed relevant url
r = requests.get(url)
soup = Soup(r.content, from_encoding = r.encoding)
Web サイトの多くのページでは問題なく動作していますが、この特定のページではエラー メッセージが返されます。
UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 0: invalid start byte
少なくとも、それは通常エラーです。また、時折 (ランダムに見えるように) わずかに異なる領域が表示され、別の位置 (たとえば、229 位の 0xea) にある別のデコード ビットについて不平を言うことがあります。
問題ページはこちら。非常によく似ているが実際に機能するものの例はこちらです。
そのページには、ループの BeautifulSoup をスローする何らかのエンコード エラーがあると思います。そのため、そのエラーを修正する方法があるかどうかが私の質問だと思います。
どうもありがとう、アレックス