-2

スクリプトを使用して、このWebサイトのすべての写真を取得したいと思います。メインページのソースコードをChrome開発ツールで表示しました。これらの画像のURLは次のようなものです

src="http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192

しかし、このページを使用wgetまたはcurlダウンロードしたり、ブラウザで「舗装を保存」したりした場合、そのhtmlファイルにはそのようなリンクはありません。これらすべてのリンクを取得する方法がわかりません。もう1つの問題は、ページを下にスクロールすると、画像が連続して表示されることです。ページ全体を取得する方法があるかどうかはわかりません。

4

1 に答える 1

1

すべての写真をダウンロードしたい最終ページにURLを投稿していただけますか?

または、 http://huaban.com/ランディングページのすべての画像を意味しますか?

次のコードを使用すると、画像のURLをファイルシステム上のファイルに「保存」できます。

image_path = 'http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192'
with open(r'<path_to_file>.jpg', 'wb') as image:
    image.write(urllib2.urlopen(image_path).read())

しかし、画像の「ソース」パスを取得するには... javascriptコンポーネントによって生成されるのではないかと心配しているため、選択肢はあまりありません。

おそらく1つの解決策は、ヘッドレスブラウザまたはPython-SpidermonkeyのようなJavaScriptエンジンブリッジを使用して、最終的な(js-buidled)htmlコンテンツを取得することです。

-コリン-

于 2012-09-03T14:12:34.853 に答える