shell - Web ページ上のすべての画像のリストを抽出するスクリプト (Web スクレイピングコード)

Question

*.jpgWeb ページ上のすべての画像 (例: ) のリスト、つまりで終わる URL を抽出できるスクリプトが欲しい.jpg

このスクリプトでは、を使用して出力をファイルに>パイプし、パイプされた出力をへの入力として使用しwgetます。

これはシェルスクリプトを使用して可能ですか。

（編集：bashシェルを使用しています）

score 3 · Accepted Answer

を使用してはlynxどうですか？

lynx -image_links -dump www.google.com |
    grep '\. https\?://.*\.\(gif\|jpg\|png\)$'

出力を少しクリーンアップするには、次を使用できますcut。

lynx -image_links -dump www.google.com |
    grep '\. https\?://.*\.\(gif\|jpg\|png\)$' |
    cut -d . -f 2- |
    cut -d ' ' -f 2-

score 0 · Accepted Answer

実際にすべての画像もダウンロードしたい場合：

for i in `lynx -image_links -dump http://www.google.com | grep 'jpg\|gif' \
| grep http | awk '{print $2}'`; do wget $i; done

shell - Web ページ上のすべての画像のリストを抽出するスクリプト (Web スクレイピング コード)