特定のドメインからすべての pdf ファイルをダウンロードする必要があります。そのドメインには約 6000 の pdf があり、それらのほとんどには html リンクがありません (リンクを削除したか、そもそもリンクを配置しなかったかのどちらかです)。
私はグーグルしているので、約6000個のファイルがあることを知っています: filetype:pdf site:*.adomain.com
ただし、Google は最初の 1000 件の結果のみを一覧表示します。これを達成するには、次の 2 つの方法があると思います。
a) Google を使用します。ただし、Google から 6000 件すべての結果を取得するにはどうすればよいですか? もしかしてスクレーパー?(scroogle を試してみましたが、うまくいきませんでした) b) Google をスキップして、ドメインで pdf ファイルを直接検索します。それらのほとんどがリンクされていない場合、どうすればよいですか?