A/38/7/CORR.1(SUPP) このページのすべての pdf ファイルをダウンロードしたい: [ http://search.un.org/?query=A&searchTrigger=%E6%90%9C%E7%B4 %A2+ODS&SS=DS&tpl=ods&lang=zh-cn]
1 つのサンプル リンクは次のとおりです。 A/38/7/CORR.1(SUPP)。このリンクは実際の pdf の URL に 2 回リダイレクトされます。Cookie が必要です。最初に : を介して tmp の URL (毎回変更) に<META HTTP-EQUIV="refresh" CONTENT="0; URL=/TMP/625508.055090904.html">
更新され、次に次のようにページが実際の URL に更新されます。<META HTTP-EQUIV="refresh" CONTENT="1; URL=http://daccess-dds-ny.un.org/doc/UNDOC/GEN/N83/368/31/PDF/N8336831.pdf?OpenElement">
これはブラウザで簡単に実行できます.wgetまたはpythonを使用してバッチダウンロードしようとすると、不可能に思えます.
wget: --load-cookie オプションを使用しても、元の URL から tmp URL を取得できません
Python: urllib、urllib2、mechanize を試しましたが、自動更新を処理できず、実際の URL を取得できません
何か手がかりを持っている体はありますか?ありがとうございます。