pdf - ドメイン (*.adomain.com など) からすべての pdf ファイルを取得する

Question

特定のドメインからすべての pdf ファイルをダウンロードする必要があります。そのドメインには約 6000 の pdf があり、それらのほとんどには html リンクがありません (リンクを削除したか、そもそもリンクを配置しなかったかのどちらかです)。

私はグーグルしているので、約6000個のファイルがあることを知っています: filetype:pdf site:*.adomain.com

ただし、Google は最初の 1000 件の結果のみを一覧表示します。これを達成するには、次の 2 つの方法があると思います。

a) Google を使用します。ただし、Google から 6000 件すべての結果を取得するにはどうすればよいですか? もしかしてスクレーパー？(scroogle を試してみましたが、うまくいきませんでした) b) Google をスキップして、ドメインで pdf ファイルを直接検索します。それらのほとんどがリンクされていない場合、どうすればよいですか?

score 0 · Accepted Answer

ファイルへのリンクが削除されていて、ディレクトリを一覧表示する権限がない場合、基本的に、どの URL の背後に pdf ファイルがあるかを知ることは不可能です。

過去にファイルへのリンクがあったと思われる場合は、http://www.archive.orgを見て、ページの以前の状態を調べることができます。

サイトに記載されているすべての pdf を再帰的に取得するには、wget をお勧めします。http://www.gnu.org/software/wget/manual/html_node/Advanced-Usage.html#Advanced-Usageの例から

http サーバー上のディレクトリからすべての gif をダウンロードしたいと考えています。'wget http://www.server.com/dir/ *.gif' を試しましたが、http の取得ではグロビングがサポートされていないため、うまくいきませんでした。その場合は、次を使用します。
     wget -r -l1 --no-parent -A.gif http://www.server.com/dir/
より冗長ですが、効果は同じです。'-r -l1' は再帰的に取得することを意味し (再帰ダウンロードを参照)、最大深度は 1 です。'--no-parent' は親ディレクトリへの参照が無視されることを意味し (ディレクトリベースの制限を参照)、'-A .gif' は、gif ファイルのみをダウンロードすることを意味します。「-A "*.gif"」も機能します。

(.gif を .pdf に置き換えるだけです!)

pdf - ドメイン (*.adomain.com など) からすべての pdf ファイルを取得する

1 に答える 1

Related

Reference