私は小さな Web サーバーを実行していますが、最近、検索エンジンのスパイダーによってクリーム化されています。冷やす正しい方法とは?定期的に 5xx 応答を送信する必要がありますか? 使用すべき robots.txt 設定はありますか? または、他の何か?
6 に答える
スパイダーが robots.txt を尊重するほど親切であると仮定すると、次のようにしてサイトへのアクセスを制限できます。
User-agent: *
Disallow: /
これはすべてのスパイダーに影響します。スパイダーに正しいユーザーエージェントを指定して、絞り込みます。
クローラーが robots.txt を尊重しない場合は、ファイアウォールで IP をブロックして、サイトへのアクセスを制限することをお勧めします。
編集: robots.txt の詳細については、こちらをご覧ください。
robots.txt が最初の寄港地となるはずです。検索ボットはこれらの設定を記録し、アクセスを拒否したページへのアクセスを停止する必要があります。これは、次の構文で Web サイトのルートにファイルを作成することで簡単に実行できます。
User-agent: *
Disallow: /
その構文は本質的に次のように述べています。詳しくはrobotstxt.orgをご覧ください
これが機能しない場合、次のステップは、可能であれば IP アドレスを禁止することです。
robots.txtを無視している場合、2番目に良いのはuseragent文字列で禁止することです。最近のスパイダーの99%は多数のサーバーに分散しているため、IPを禁止するだけではあまり効果がありません。
サイトマップを作成し、サイトマップを問題のボットに登録することもできます。検索エンジンはサイトマップを使用して、ヒットするページとその頻度を決定します。サイトが完全に動的である場合は、あまり役に立たないかもしれませんが、静的なページがたくさんある場合は、毎日何も変わらないことをスパイダーに伝える良い方法です。
robots.txtを最初に選択する必要があります。ただし、ボットが誤動作し、ファイアウォールを制御できない場合は、.htaccess制限を設定して、IPでボットを禁止することができます。
User-agent: *
Disallow: /