0

このページにリストされている PDFS へのリンクを抽出する必要があるクローラーを python で作成しています。

http://www.peekyou.com/barack_obama

(下にスクロールすると、pdf へのリンクを含む「ドキュメント」セクションがあります。)

問題は、「ドキュメント」セクションが数秒後にバックグラウンドで、おそらく JavaScript でロードされることです。そして、htmlページを取得するために使用している関数は、そのセクションを取得しません。

HTMLを取得するために、次のコードが与えられました:

        ...
        req = urllib2.Request(url)            
        req.add_header('User-agent', random.choice(LISTAGENT))                        
        page = urllib2.urlopen(req)                                        
        if page.info().getmaintype() == "text":
            html = page.read()
            ...

私が言ったように、そのセクションを取得しません。

私の問題に対処する適切な方法は何ですか? 使用できる API はありますか? ありがとうございました。

4

0 に答える 0