このページにリストされている PDFS へのリンクを抽出する必要があるクローラーを python で作成しています。
http://www.peekyou.com/barack_obama
(下にスクロールすると、pdf へのリンクを含む「ドキュメント」セクションがあります。)
問題は、「ドキュメント」セクションが数秒後にバックグラウンドで、おそらく JavaScript でロードされることです。そして、htmlページを取得するために使用している関数は、そのセクションを取得しません。
HTMLを取得するために、次のコードが与えられました:
...
req = urllib2.Request(url)
req.add_header('User-agent', random.choice(LISTAGENT))
page = urllib2.urlopen(req)
if page.info().getmaintype() == "text":
html = page.read()
...
私が言ったように、そのセクションを取得しません。
私の問題に対処する適切な方法は何ですか? 使用できる API はありますか? ありがとうございました。