私はBeautifulSoupを使用していますが、バグまたはエラーが発生しました。私の例では、NYTimesのサブセクションサイトをクロールします...
import urllib2
from bs4 import BeautifulSoup
website = "http://www.nytimes.com/pages/politics/index.html"
data = BeautifulSoup(urllib2.urlopen(website).read())
print data
コードを実行すると、headタグとその中身が返されます。ただし、bodyタグの内側にあるものは取得しません。WebサイトのURLをに変更するとhttp://www.nytimes.com
、BSは全ページのソースを返します。ここで何が起こっているのでしょうか。また、クロールしたときにbodyタグが表示されないのはなぜhttp://www.nytimes.com/pages/politics/index.html
ですか。