python - BeautifulSoupは一部のWebサイトでは機能しません

Question

私はこのスリプトを持っています：

import urrlib2
from bs4 import BeautifulSoup
url = "http://www.shoptop.ru/"
page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
divs = soup.findAll('a')
print divs

このWebサイトでは、空のリストを出力しますか？何が問題になる可能性がありますか？私はUbuntu12.04で実行しています

score 3 · Accepted Answer

実際、BeautifulSoupにはかなりの数のバグがあり、未知のエラーが発生する可能性があります。lxmlパーサーを使用してapacheで作業しているときに、同様の問題が発生しました

したがって、ドキュメントに記載されている他のいくつかのパーサーを使用してみてください

soup = BeautifulSoup(page, "html.parser")

これはうまくいくはずです！

score -2 · Accepted Answer

コードにいくつかの間違いがあるようです。urrlib2はurllib2である必要があります。コードを修正しました。これは、BeautifulSoup3を使用して機能します。

import urllib2
from BeautifulSoup import BeautifulSoup
url = "http://www.shoptop.ru/"
page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
divs = soup.findAll('a')
print divs

python - BeautifulSoupは一部のWebサイトでは機能しません

2 に答える 2

Related

Reference