テスト用に、次のサイトhttp://computerone.altervista.orgのページをダウンロードしようとしています…</p>
私の目標は、次のパターン " *JavaScript*
" および " " に一致するページだけをダウンロードすること*index*
です。
実際に次のオプションを試してみると
wget \
-A "*Javascript*, *index*" \
--exclude-domains http://computerone.altervista.org/rss-articles/ \
-e robots=off \
--mirror -E -k -p -np -nc --convert-links \
--wait=5 -c \
http://computerone.altervista.org
それもダウンロードしようとするという事実を期待して動作しますhttp://computerone.altervista.org/rss-articles/
。
私の質問は次のとおりです。
- なぜページをダウンロードしようとするの
http://computerone.altervista.org/rss-articles/
ですか? - どのように避けるべきですか?
--exclude-domains http://computerone.altervista.org/rss-articles/
オプションを試しましたが、ダウンロードしようとしました
PS:
ソースページを見ると、次のようになります。
<link rel="alternate" type="application/rss+xml" title="RSS 2.0" href="rss-articles/" />