pdf-scraping - リンクされたPDFファイルをWebサイトからダウンロードするにはどうすればよいですか?

Question

サイトから何百もの PDF ドキュメントをダウンロードしたいと考えています。SiteSucker などのツールを試してみましたが、ファイルとそれらにリンクするページの間に「分離」があるように見えるため、機能しません。ウェブサイトのプログラミングやスクレイピングについてあまり知らないので、これをより適切に説明する方法がわかりません。これが何であり、どのように回避できるかについてのアドバイスはありますか?

より具体的には、次のようなページに保存されている国連決議の PDF をダウンロードしようとしています: http://www.un.org/depts/dhl/resguide/r53_en.shtml

国連のサイトには「検索機能」が組み込まれているようで、SiteSucker のようなダミーのスクレイピングが意図したとおりに機能しません。

他に使用できるツールはありますか?

score 0 · Accepted Answer

あなたが言及したページのリンクをクリックすると、2 つのフレーム (html) で構成されるページにリダイレクトされます。1 つ目は「ヘッダー」で、2 つ目はページをロードして PDF ファイルを生成し、内部に埋め込みます。PDF ファイルの URL を推測するのは困難です。このタイプのページを破棄できる無料のツールを知りません。

以下は、PDF ファイルで終わる 2 番目のフレームの URL の例です。

http://daccess-dds-ny.un.org/doc/UNDOC/GEN/N99/774/43/PDF/N9977443.pdf?OpenElement

pdf-scraping - リンクされたPDFファイルをWebサイトからダウンロードするにはどうすればよいですか?

1 に答える 1

Related

Reference