2

同じ構造の約 100 個の Web ページをクロールしようとしていますが、必要な画像はインスタンスごとに異なる名前です。

イメージタグは次の場所にあります。

#content div.artwork img.artwork

その結果の src url をダウンロードする必要があります。

何か案は?.txt ファイルに URL があり、Mac OS X ボックスを使用しています。

4

1 に答える 1

1

ファイルに対して「セレクター」のようなクエリをどのように利用できるかわかりませんが、Perl 正規表現でも同様に機能する可能性があります。

for url in `cat urls.txt`; do wget -O- $url; done | \
  perl -nle 'print $1 if /<img.+?class="artwork".+?src="([^"]+)"/'
于 2010-02-10T14:00:10.887 に答える