cpu-usage - BingBot と BaiduSpider は robots.txt を尊重しません

Question

ボットがサイトを圧倒したために CPU 使用率が突然 400% を超えた後、次のように robots.txt を作成し、ルートにファイルを配置しました (例: 「www.example.com/」)。

User-agent: *
Disallow: /

現在、Google はこのファイルを尊重しており、Google のログファイルにはこれ以上記録がありません。ただし、BingBot と BaiduSpider はまだログに表示されます (そしてたくさんあります)。

CPU使用率と帯域幅が大幅に増加し、ホスティングプロバイダーがアカウントを一時停止しようとしていたため、最初にすべてのページを削除し（厄介なスクリプトがあった場合に備えて）、クリーンなページをアップロードし、IPアドレスを介してすべてのボットをブロックしました. .htaccess & 次に、その robots.txt ファイルを作成しました。

正しい手順を実行したことを確認するために、あらゆる場所を検索しました (.htaccess の「書き換え」オプションはまだ試していません)。

私がしたことが仕事をするべきであることを誰かが確認できますか? (このベンチャーを始めてから、私の CPU 使用率は 6 日以内に 120% まで下がりましたが、少なくとも IP アドレスをブロックすることで、CPU 使用率は通常の 5 ～ 10% まで下がったはずです)。

score 3 · Accepted Answer

これらが Bingbot と Baiduspider からの正当なスパイダーである場合、両方とも指定された robots.txt ファイルを尊重する必要があります。ただし、これらのファイルが以前にインデックス化されている場合は、ファイルを取得して処理を開始するまでに時間がかかる可能性があります。これはおそらくこの場合です。

この例には当てはまりませんが、Baiduspider の robots.txt 標準の解釈は、いくつかの点で他の主流のボット (つまり Googlebot) とは少し異なることに注意してください。たとえば、標準ではDisallow:レコードの URL パスを単純にプレフィックスとして定義していますが、バイドゥスパイダーはディレクトリ/パス名全体のみに一致します。http://example.com/private/ディレクティブが与えられたときにGooglebot が URL と一致する場合Disallow: /priv、Baiduspider は一致しません。

参照:
http://www.baidu.com/search/robots_english.html

cpu-usage - BingBot と BaiduSpider は robots.txt を尊重しません

1 に答える 1

Related

Reference