web - 検索エンジンのスパイダーがサイトを攻撃している場合はどうすればよいですか?

Question

私は小さな Web サーバーを実行していますが、最近、検索エンジンのスパイダーによってクリーム化されています。冷やす正しい方法とは？定期的に 5xx 応答を送信する必要がありますか? 使用すべき robots.txt 設定はありますか? または、他の何か？

score 6 · Accepted Answer

スパイダーが robots.txt を尊重するほど親切であると仮定すると、次のようにしてサイトへのアクセスを制限できます。

User-agent: *
Disallow: /

これはすべてのスパイダーに影響します。スパイダーに正しいユーザーエージェントを指定して、絞り込みます。

クローラーが robots.txt を尊重しない場合は、ファイアウォールで IP をブロックして、サイトへのアクセスを制限することをお勧めします。

編集: robots.txt の詳細については、こちらをご覧ください。

score 2 · Accepted Answer

robots.txt が最初の寄港地となるはずです。検索ボットはこれらの設定を記録し、アクセスを拒否したページへのアクセスを停止する必要があります。これは、次の構文で Web サイトのルートにファイルを作成することで簡単に実行できます。

User-agent: *
Disallow: /

その構文は本質的に次のように述べています。詳しくはrobotstxt.orgをご覧ください

これが機能しない場合、次のステップは、可能であれば IP アドレスを禁止することです。

score 1 · Accepted Answer

robots.txtを無視している場合、2番目に良いのはuseragent文字列で禁止することです。最近のスパイダーの99％は多数のサーバーに分散しているため、IPを禁止するだけではあまり効果がありません。

score 1 · Accepted Answer

サイトマップを作成し、サイトマップを問題のボットに登録することもできます。検索エンジンはサイトマップを使用して、ヒットするページとその頻度を決定します。サイトが完全に動的である場合は、あまり役に立たないかもしれませんが、静的なページがたくさんある場合は、毎日何も変わらないことをスパイダーに伝える良い方法です。

score 0 · Accepted Answer

robots.txtを最初に選択する必要があります。ただし、ボットが誤動作し、ファイアウォールを制御できない場合は、.htaccess制限を設定して、IPでボットを禁止することができます。

score 0 · Accepted Answer

0

User-agent: *
Disallow: /

于 2009-01-22T23:55:56.847 に答える

web - 検索エンジンのスパイダーがサイトを攻撃している場合はどうすればよいですか?

6 に答える 6

Related

Reference