1

BeautifulSoup 4 を使用して Web サイトから映画情報を抽出しようとしています。コードの関連部分は次のとおりです。

from bs4 import BeautifulSoup as Soup
import requests

url = r'http://www.the-numbers.com/movies/1997/ASGOD.php' #is passed relevant url
r = requests.get(url)
soup = Soup(r.content, from_encoding = r.encoding) 

Web サイトの多くのページでは問題なく動作していますが、この特定のページではエラー メッセージが返されます。

UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 0: invalid start byte

少なくとも、それは通常エラーです。また、時折 (ランダムに見えるように) わずかに異なる領域が表示され、別の位置 (たとえば、229 位の 0xea) にある別のデコード ビットについて不平を言うことがあります。

問題ページはこちら。非常によく似ているが実際に機能するものの例はこちらです。

そのページには、ループの BeautifulSoup をスローする何らかのエンコード エラーがあると思います。そのため、そのエラーを修正する方法があるかどうかが私の質問だと思います。

どうもありがとう、アレックス

4

0 に答える 0