9

Python を使用して、ページとそれに関連するすべてのリソース (画像、スタイル シート、スクリプト ファイルなど) をダウンロードできるようにしたいと考えています。私は urllib2 に (ある程度) 精通しており、個々の URL をダウンロードする方法を知っていますが、BeautifulSoup + urllib2 でハッキングを開始する前に、"wget --page-requisites http ://www.google.com ".

具体的には、すべてのリソースを含む Web ページ全体をダウンロードするのにかかる時間に関する統計情報を収集することに関心があります。

ありがとうマーク

4

2 に答える 2

3

ウェブサッカー?http://effbot.org/zone/websucker.htmを参照

于 2009-05-09T21:31:08.277 に答える
2

websucker.py は CSS リンクをインポートしません。HTTrack.com は Python ではなく、C/C++ ですが、オフライン ブラウジング用に Web サイトをダウンロードするための優れた、メンテナンスされたユーティリティです。

http://www.mail-archive.com/python-bugs-list@python.org/msg13523.html [issue1124] Webchecker が css "@import url" を解析しない

Guido> これは基本的にサポートされておらず、メンテナンスもされていないサンプル コードです。気軽にパッチを提出してください!

于 2010-05-14T21:22:34.010 に答える