0

私は小さな Web サーバーを実行していますが、最近、検索エンジンのスパイダーによってクリーム化されています。冷やす正しい方法とは?定期的に 5xx 応答を送信する必要がありますか? 使用すべき robots.txt 設定はありますか? または、他の何か?

4

6 に答える 6

6

スパイダーが robots.txt を尊重するほど親切であると仮定すると、次のようにしてサイトへのアクセスを制限できます。

User-agent: *
Disallow: /

これはすべてのスパイダーに影響します。スパイダーに正しいユーザーエージェントを指定して、絞り込みます。

クローラーが robots.txt を尊重しない場合は、ファイアウォールで IP をブロックして、サイトへのアクセスを制限することをお勧めします。

編集: robots.txt の詳細については、こちらをご覧ください。

于 2009-01-22T23:54:43.183 に答える
2

robots.txt が最初の寄港地となるはずです。検索ボットはこれらの設定を記録し、アクセスを拒否したページへのアクセスを停止する必要があります。これは、次の構文で Web サイトのルートにファイルを作成することで簡単に実行できます。

User-agent: *
Disallow: /

その構文は本質的に次のように述べています。詳しくはrobotstxt.orgをご覧ください

これが機能しない場合、次のステップは、可能であれば IP アドレスを禁止することです。

于 2009-01-22T23:55:32.997 に答える
1

robots.txtを無視している場合、2番目に良いのはuseragent文字列で禁止することです。最近のスパイダーの99%は多数のサーバーに分散しているため、IPを禁止するだけではあまり効果がありません。

于 2009-01-24T05:45:06.673 に答える
1

サイトマップを作成し、サイトマップを問題のボットに登録することもできます。検索エンジンはサイトマップを使用して、ヒットするページとその頻度を決定します。サイトが完全に動的である場合は、あまり役に立たないかもしれませんが、静的なページがたくさんある場合は、毎日何も変わらないことをスパイダーに伝える良い方法です。

于 2009-01-23T00:08:15.030 に答える
0

robots.txtを最初に選択する必要があります。ただし、ボットが誤動作し、ファイアウォールを制御できない場合は、.htaccess制限を設定して、IPでボットを禁止することができます。

于 2009-01-24T05:27:55.350 に答える
0
User-agent: *
Disallow: /
于 2009-01-22T23:55:56.847 に答える