wget
他の Web サイトをクロールするために使用する Web サイトがあるとします。ウェブサイトの所有者に、私のウェブサイトがクロールされないようにする機会を提供したいと考えています。ファイルでロボット名を使用する必要がwget
ありrobots.txt
ますか、それとも別の名前を作成する必要がありますか?
質問する
384 次
2 に答える
1
一般的な方法は、すべてを許可せず、次のように最も人気のある UA のみを許可することです。
User-agent: Google
Disallow:
User-agent: *
Disallow: /
wget
ですので、その使い方で問題ないと思います
于 2013-05-05T04:02:46.057 に答える
0
ロボットをブロックしたい Web サイトは、選択的にではなく、ワイルドカードを使用してロボットをすべてブロックするようです。非常に多くのユーザー エージェントがあり、すべてをリストするには多すぎます。
したがって、wget にデフォルトのユーザー エージェントがある限り (あると思います)、私はそれを使い続けます。
于 2013-05-05T03:52:09.520 に答える