python - 複数のHTTPリダイレクト後にPDFファイルを自動ダウンロード

翻译自：https://stackoverflow.com/questions/29624570 2015-04-14T10:07:20.460

298 次

A/38/7/CORR.1(SUPP) このページのすべての pdf ファイルをダウンロードしたい: [ http://search.un.org/?query=A&searchTrigger=%E6%90%9C%E7%B4 %A2+ODS&SS=DS&tpl=ods&lang=zh-cn]

1 つのサンプルリンクは次のとおりです。 A/38/7/CORR.1(SUPP)。このリンクは実際の pdf の URL に 2 回リダイレクトされます。Cookie が必要です。最初に : を介して tmp の URL (毎回変更) に<META HTTP-EQUIV="refresh" CONTENT="0; URL=/TMP/625508.055090904.html">更新され、次に次のようにページが実際の URL に更新されます。<META HTTP-EQUIV="refresh" CONTENT="1; URL=http://daccess-dds-ny.un.org/doc/UNDOC/GEN/N83/368/31/PDF/N8336831.pdf?OpenElement">

これはブラウザで簡単に実行できます.wgetまたはpythonを使用してバッチダウンロードしようとすると、不可能に思えます.

wget: --load-cookie オプションを使用しても、元の URL から tmp URL を取得できません

Python: urllib、urllib2、mechanize を試しましたが、自動更新を処理できず、実際の URL を取得できません

何か手がかりを持っている体はありますか？ありがとうございます。

python - 複数のHTTPリダイレクト後にPDFファイルを自動ダウンロード

0 に答える 0

Related

Reference