6

Google、bing、yahoo、alexa などのよく知られているロボットからのクロールを許可し、他の有害なスパマーやロボットを阻止するようにサイトを構成するにはどうすればよいですか

特定の IP をブロックする必要がありますか? 長所、短所について話し合ってください web.config または IIS で行うことはありますか?

root アクセスの vps がある場合、サーバー全体で行うことはできますか?

ありがとう。

4

4 に答える 4

8

同様の質問に投稿した回答を確認することをお勧めします:Webクローラーを識別する方法は?

Robots.txt
robots.txtは礼儀正しいボットに役立ちますが、スパマーは一般的に礼儀正しくないため、robots.txtを無視する傾向があります。丁寧なボットを助けることができるので、robots.txtがあれば素晴らしいです。ただし、間違ったパスをブロックしないように注意してください。これにより、優れたボットが実際にクロールしたいコンテンツをクロールできなくなる可能性があります。


スパマーはブラウザやその他の一般的なユーザーエージェント(Googleボットなど)になりすますことが多いため、ユーザーエージェントによるユーザーエージェントのブロックも絶対確実ではありません。実際のところ、ユーザーエージェントのなりすましは、スパマーが実行できる最も簡単なことの1つです。

ボットトラップ
これは、礼儀正しくなく、ユーザーエージェントで自分自身を正しく識別しないボットから身を守るための最良の方法です。トラップには少なくとも2つのタイプがあります。

  • robots.txtトラップ(ボットがrobots.txtを読み取った場合にのみ機能します):robots.txtに立ち入り禁止ディレクトリを割り当て、そのディレクトリにアクセスしようとするエンティティのIPアドレスをブロックするようにサーバーを設定します。
  • Webページに「非表示」リンクを作成します。これは禁止ディレクトリにもつながります。これらのリンクをクロールし、robots.txtに従わないボットは、トラップに侵入してIPをブロックします。

非表示のリンクとは、テキストのないアンカータグなど、人には見えないリンクです<a href="http://www.mysite.com/path/to/bot/trap"></a>。または、アンカータグにテキストを含めることもできますが、フォントを非常に小さくし、テキストの色を背景色に合わせて変更して、人間がリンクを見ることができないようにすることができます。隠しリンクトラップは人間以外のボットを捕まえることができるので、robots.txtトラップと組み合わせて、悪いボットだけを捕まえることをお勧めします。

ボット
の確認上記の手順は、おそらくスパマーの99.9%を取り除くのに役立ちますが、人気のあるボット(Googlebotなど)になりすましてrobots.txtを遵守する少数の悪いボットが存在する可能性があります。これらのボットは、Googlebotに割り当てたリクエストの数を使い果たし、GoogleがWebサイトをクロールすることを一時的に禁止する可能性があります。その場合、もう1つのオプションがあり、それはボットのIDを確認することです。ほとんどの主要なクローラー(クロールされたい)には、ボットを識別できる方法があります。ボットを確認するためのGoogleの推奨事項は次のとおりです。http://googlewebmastercentral.blogspot.com/2006/09/how-to -verify-googlebot.html

別の主要なボットになりすまして検証に失敗したボットは、IPによってブロックされる可能性があります。これにより、悪意のあるボットの99.99%がサイトをクロールするのを防ぐことができるようになります。

于 2012-05-29T19:05:01.937 に答える
1

IPによるブロックは便利ですが、私が使用する方法はユーザーエージェントによるブロックです。これにより、不要なアプリ、特にサイトグラバーを使用してさまざまなIPをトラップできます。あなたがあなたに影響を与えるものに集中する必要があるので、私は私たちのリストを提供しません。私たちが使用するために、Webブラウザーではなく、Webにアクセスしたくない検索エンジンでもない130を超えるアプリケーションを特定しました。ただし、サイトを取得するためのユーザーエージェントのWeb検索から始めることができます。

于 2012-05-29T06:35:21.547 に答える
0

これを行う最も簡単な方法は、Web サイトのルート ディレクトリにある robots.txt ファイルを使用することです。

robots.txt ファイルの構文は次のとおりです。

User-agent: *
Disallow: /

これにより、定義されたページから robots.txt 規則を尊重するすべてのロボットが実質的に禁止されます。

ただし、覚えておくべきことは、すべての Web クローラーがこの規則を尊重するわけではないということです。

ボットが何度もサーバーにアクセスするのを防ぐのに非常に役立ちます。また、サイトにまったく触れたくない一部のボットを防ぐのにも役立ちますが、残念ながら万能ではありません。すでに述べたように、そのような動物は存在しません。スパムは常に頭痛の種です。

詳細については、http: //www.robotstxt.org/ をご覧ください。

于 2012-05-29T10:21:40.330 に答える
0

私は .htaccess ファイルを使用するのが好きです。既知のボットのリストを取得したら、これらの行をファイルの末尾に追加します。

RewriteCond %{HTTP_REFERER} ^http(s)?://([^.]+.)疑わしい IP。$ [NC,OR]

RewriteCond %{HTTP_REFERER} ^http(s)?://([^.]+.) suspectURL.com. $ [NC]

RewriteRule (.*) - [F]

于 2015-05-02T17:49:55.070 に答える