できれば、URL を指定して python (現在は urllib と BeautifulSoup を使用) を使用します。
たとえば、このページのメイン写真をスクレイピングしようとしています: http://www.marcjacobs.com/marc-jacobs/womens/bags-and-accessories/c3122001/the-single#?p=1&s=12
Firefox の [ツール] > [ページ情報] > [メディア] の下に、取得したい画像へのリンク ( http://imagesec.mj.ctscdn.com/image/336/504/6ace6aac-c049-4d7e- 9465-c19b5cd8e4ac.jpg )
相互に関連する 2 つの問題:
- ソースを表示すると、Firefox ツールから取得した画像パスが html ドキュメントに見つかりません... Firefox ページ情報を経由せずにこのパスを取得する方法はありますか? おそらく、Python および/または Javascript/JQuery のいずれかを介してですか?
- 製品の写真を「オレンジ」で取得しようとしていますが、ページがデフォルトで常に黒色をロードしていることに気付きました
実際の例はおそらく Google の「ショッピング」です。この製品の名前を入力して色を選択すると、検索結果に (まったく同じページから) 正しい色で画像が表示されます。
基本的に、主にショッピング サイトから色やスタイル/バリエーション固有の画像をスクレイピングできるようにしたいと考えています。
適切な色を選択するのはもっと複雑に思えます。その場合、私は今のところメインの製品画像だけを黒に落ち着かせます..
これまでのところ、img の高さタグに基づいて画像を選択しようとしましたが、高さ/幅のタグがない場合は寸法を読み取ろうとしましたが、もっと良い方法があるはずです。