2

wget他の Web サイトをクロールするために使用する Web サイトがあるとします。ウェブサイトの所有者に、私のウェブサイトがクロールされないようにする機会を提供したいと考えています。ファイルでロボット名を使用する必要がwgetありrobots.txtますか、それとも別の名前を作成する必要がありますか?

4

2 に答える 2

1

一般的な方法は、すべてを許可せず、次のように最も人気のある UA のみを許可することです。

User-agent: Google
Disallow:


User-agent: *
Disallow: /

wgetですので、その使い方で問題ないと思います

于 2013-05-05T04:02:46.057 に答える
0

ロボットをブロックしたい Web サイトは、選択的にではなく、ワイルドカードを使用してロボットをすべてブロックするようです。非常に多くのユーザー エージェントがあり、すべてをリストするには多すぎます。

したがって、wget にデフォルトのユーザー エージェントがある限り (あると思います)、私はそれを使い続けます。

于 2013-05-05T03:52:09.520 に答える