download - wgetを使用してリンクがダウンロードされないようにする方法

Question

テスト用に、次のサイトhttp://computerone.altervista.orgのページをダウンロードしようとしています…</p>

私の目標は、次のパターン " *JavaScript*" および " " に一致するページだけをダウンロードすること*index*です。

実際に次のオプションを試してみると

wget \
-A "*Javascript*, *index*" \
--exclude-domains http://computerone.altervista.org/rss-articles/ \
-e robots=off \
--mirror -E -k -p -np -nc --convert-links  \
--wait=5 -c  \
http://computerone.altervista.org

それもダウンロードしようとするという事実を期待して動作しますhttp://computerone.altervista.org/rss-articles/。

私の質問は次のとおりです。

なぜページをダウンロードしようとするのhttp://computerone.altervista.org/rss-articles/ですか？
どのように避けるべきですか？--exclude-domains http://computerone.altervista.org/rss-articles/オプションを試しましたが、ダウンロードしようとしました

PS:
ソースページを見ると、次のようになります。

<link rel="alternate" type="application/rss+xml" title="RSS 2.0" href="rss-articles/" />

score 2 · Accepted Answer

wget -pすべてのページの必要条件をダウンロードします。

男 wget:

このトピックを締めくくるにあたり、Wget の外部ドキュメントリンクの考え方は、<A>タグ、 <AREA>タグ、または<LINK>以外のタグで指定された任意の URL であることを知っておく価値があります<LINK REL="stylesheet">。

rss-articles使用を除外する-Xか、--exclude-directories

wget -A "*Javascript*, *index*" -X "rss-articles" -e robots=off --mirror -E -k -p -np -nc -c http://computerone.altervista.org

download - wgetを使用してリンクがダウンロードされないようにする方法

1 に答える 1

Related

Reference