web - すべてのデータがXMLデータベースにロックされているWebサイトをスクレイピングしますか？

Question

このウェブサイト（http://www.afghanislamicpress.com/）の完全なアーカイブファイルをダウンロードしようとしています。

DeepVacuum（http://www.hexcat.com/deepvacuum/index.html）を使用してみましたが、サイトは動的です（これは正しい言葉だと思います）。

したがって、記事のアーカイブを提供するフォームを送信しますが、一度に5つしか吐き出せず（つまり、ページごとに）、クリックする必要があります。完全なデータセットの個々の記事をすべてダウンロードしたいのですが、手動でクリックしたくありません。

これを行う簡単な方法があることは知っていますが、その方法は完全にはわかりません。

データスクレイピングなどを行う初心者への提案はありますか？

score 1 · Accepted Answer

最も簡単な解決策は、ウェブサイトの所有者に連絡して、記事を再発行する許可を求め、デジタルコピーを求めることです。

ページングされたコンテンツのプルダウンを自動化することは確かにできますが、プログラミングの労力が必要です。そのための最適なツールはHTML Agility Packです。

ダウンロードするコンテンツの著作権およびライセンス条項を必ず遵守してください。

1 に答える 1