wget - robots.txt のロボット名

Question

wget他の Web サイトをクロールするために使用する Web サイトがあるとします。ウェブサイトの所有者に、私のウェブサイトがクロールされないようにする機会を提供したいと考えています。ファイルでロボット名を使用する必要がwgetありrobots.txtますか、それとも別の名前を作成する必要がありますか?

score 1 · Accepted Answer

一般的な方法は、すべてを許可せず、次のように最も人気のある UA のみを許可することです。

User-agent: Google
Disallow:


User-agent: *
Disallow: /

wgetですので、その使い方で問題ないと思います

score 0 · Accepted Answer

ロボットをブロックしたい Web サイトは、選択的にではなく、ワイルドカードを使用してロボットをすべてブロックするようです。非常に多くのユーザーエージェントがあり、すべてをリストするには多すぎます。

したがって、wget にデフォルトのユーザーエージェントがある限り (あると思います)、私はそれを使い続けます。

wget - robots.txt のロボット名

2 に答える 2

Related

Reference