python - Python で Web ページとそのすべてのリソースファイルをダウンロードする

Question

Python を使用して、ページとそれに関連するすべてのリソース (画像、スタイルシート、スクリプトファイルなど) をダウンロードできるようにしたいと考えています。私は urllib2 に (ある程度) 精通しており、個々の URL をダウンロードする方法を知っていますが、BeautifulSoup + urllib2 でハッキングを開始する前に、"wget --page-requisites http ://www.google.com ".

具体的には、すべてのリソースを含む Web ページ全体をダウンロードするのにかかる時間に関する統計情報を収集することに関心があります。

ありがとうマーク

score 3 · Accepted Answer

3

ウェブサッカー？http://effbot.org/zone/websucker.htmを参照

于 2009-05-09T21:31:08.277 に答える

score 2 · Accepted Answer

websucker.py は CSS リンクをインポートしません。HTTrack.com は Python ではなく、C/C++ ですが、オフラインブラウジング用に Web サイトをダウンロードするための優れた、メンテナンスされたユーティリティです。

http://www.mail-archive.com/python-bugs-list@python.org/msg13523.html [issue1124] Webchecker が css "@import url" を解析しない

Guido> これは基本的にサポートされておらず、メンテナンスもされていないサンプルコードです。気軽にパッチを提出してください！

python - Python で Web ページとそのすべてのリソース ファイルをダウンロードする

2 に答える 2

Related

Reference

python - Python で Web ページとそのすべてのリソースファイルをダウンロードする