1

WebサイトからPDFファイルをダウンロードしようとしています。ファイルの名前(例:foo.pdf )はわかっていますが、場所は数週間ごとに変更されます。

例: www.server.com/media/123456/foo.pdfがwww.server.com/media/245415/foo.pdf に変更されます

数字は常に6桁の数字なので、bashスクリプトを使用して1,000万個すべてを調べてみましたが、明らかに時間がかかります。

i=0
until [ "$RC" == "0" ] || [ $i == 1000000 ]
do
  b=$(printf %06d $i)
  wget -q http://www.server.com/media/${b}/foo.pdf -O bar.pdf
  export RC=$?
  i=$(($i + 1))
done

間違ったアドレスの場合、404エラーが発生します。
私は現在正しいアドレスの周りでそれをテストしました、そしてそれは働きます。

誰かがこの問題を解決するためのより速い方法を知っていますか?

4

2 に答える 2

2

そのページが他の場所からリンクされている場合は、そこからリンクを取得して、ファイルを取得するだけです。そうでない場合は、おそらく運が悪いでしょう。

ほとんどのサーバーは、Webサーバーを1,000,000回悪用しようとすることを検討し、試みたとしてもIPを禁止することに注意してください。

于 2012-09-09T03:27:18.067 に答える
0

時々値に従って、それらがアルゴリズム的であるかどうかを調べてください。ただし、ジグドンが上で述べたように、リンクのソースがある場合は、最初にそれを取得し、PDFへのリンクをたどってください。

于 2012-09-09T03:29:39.017 に答える