後で分析するために大量の Web ページをダウンロードすることに興味があります。やりたいことは2つあります。
- ページと関連リソース (画像、記事に関連付けられた複数のページなど) を WARC ファイルにダウンロードします。
- 現在のローカル ファイルを指すようにすべてのリンクを変更します。
これをPythonでやりたいです。
これを行うための適切なライブラリはありますか? Scrapy は、単一のページではなく Web サイトをスクレイピングするように設計されているようで、WARC ファイルを生成する方法がわかりません。もっとpythonネイティブなものがない場合、wgetを呼び出すことは実行可能な解決策です。Heritrix は完全に行き過ぎであり、Python ソリューションとしてはあまり優れていません。wpull は、十分に文書化された Python ライブラリがあれば理想的ですが、ほとんどがアプリケーションのようです。
他のアイデアはありますか?