私は Web スクレイパーの作成を学んでおり、個人的なプロジェクトのためにトリップアドバイザーをスクレイピングして、urllib2 を使用して HTML を取得したいと考えています。ただし、以下のコードを使用すると、ページがリダイレクトするのに1秒かかるように見えるため、返されるhtmlが正しくないという問題が発生しています(URLにアクセスして確認できます)-代わりにコードを取得します最初に簡単に表示されるページから。
Web サイトのコンテンツを取得する前に、ページの読み込み/リダイレクトが完全に完了していることを確認するために設定する動作またはパラメーターはありますか?
import urllib2
from bs4 import BeautifulSoup
bostonPage = urllib2.urlopen("http://www.tripadvisor.com/HACSearch?geo=34438#02,1342106684473,rad:S0,sponsors:ABEST_WESTERN,style:Szff_6")
soup = BeautifulSoup(bostonPage)
print soup.prettify()
編集:答えは徹底的ですが、最終的に私の問題を解決したのはこれでした: https://stackoverflow.com/a/3210737/1157283