python - このウェブサイトのすべての写真をダウンロードする方法：huaban.com

Question

スクリプトを使用して、このWebサイトのすべての写真を取得したいと思います。メインページのソースコードをChrome開発ツールで表示しました。これらの画像のURLは次のようなものです

src="http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192

しかし、このページを使用wgetまたはcurlダウンロードしたり、ブラウザで「舗装を保存」したりした場合、そのhtmlファイルにはそのようなリンクはありません。これらすべてのリンクを取得する方法がわかりません。もう1つの問題は、ページを下にスクロールすると、画像が連続して表示されることです。ページ全体を取得する方法があるかどうかはわかりません。

score 1 · Accepted Answer

すべての写真をダウンロードしたい最終ページにURLを投稿していただけますか？

または、 http：//huaban.com/ランディングページのすべての画像を意味しますか？

次のコードを使用すると、画像のURLをファイルシステム上のファイルに「保存」できます。

image_path = 'http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192'
with open(r'<path_to_file>.jpg', 'wb') as image:
    image.write(urllib2.urlopen(image_path).read())

しかし、画像の「ソース」パスを取得するには... javascriptコンポーネントによって生成されるのではないかと心配しているため、選択肢はあまりありません。

おそらく1つの解決策は、ヘッドレスブラウザまたはPython-SpidermonkeyのようなJavaScriptエンジンブリッジを使用して、最終的な（js-buidled）htmlコンテンツを取得することです。

-コリン-

python - このウェブサイトのすべての写真をダウンロードする方法：huaban.com

1 に答える 1

Related

Reference