1

テスト用に、次のサイトhttp://computerone.altervista.orgのページをダウンロードしようとしています…</p>

私の目標は、次のパターン " *JavaScript*" および " " に一致するページだけをダウンロードすること*index*です。

実際に次のオプションを試してみると

wget \
-A "*Javascript*, *index*" \
--exclude-domains http://computerone.altervista.org/rss-articles/ \
-e robots=off \
--mirror -E -k -p -np -nc --convert-links  \
--wait=5 -c  \
http://computerone.altervista.org

それもダウンロードしようとするという事実を期待して動作しますhttp://computerone.altervista.org/rss-articles/

私の質問は次のとおりです。

  1. なぜページをダウンロードしようとするのhttp://computerone.altervista.org/rss-articles/ですか?
  2. どのように避けるべきですか?--exclude-domains http://computerone.altervista.org/rss-articles/オプションを試しましたが、ダウンロードしようとしました

PS:
ソースページを見ると、次のようになります。

<link rel="alternate" type="application/rss+xml" title="RSS 2.0" href="rss-articles/" />
4

1 に答える 1

2

wget -pすべてのページの必要条件をダウンロードします。

男 wget:

このトピックを締めくくるにあたり、Wget の外部ドキュメント リンクの考え方は、<A>タグ、 <AREA>タグ、または<LINK>以外のタグで指定された任意の URL であることを知っておく価値があります<LINK REL="stylesheet">

rss-articles使用を除外する-Xか、--exclude-directories

wget -A "*Javascript*, *index*" -X "rss-articles" -e robots=off --mirror -E -k -p -np -nc -c http://computerone.altervista.org

于 2012-12-25T10:17:38.750 に答える