問題タブ [bingbot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-crawler - Bing が不定期にトラフィックでサイトを圧倒するのを防ぐにはどうすればよいですか?
Bingbot は、私のサイトに毎日 2 時間ほど頻繁にアクセスし、残りの時間は非常に軽くなります。
クロールをスムーズにするか、レート制限を下げるか、完全にブロックしたいと思います。実際の訪問者を実際に送信することはありません。
クロールをスムーズにしたり、速度を制限したりする方法はありますか?
web-crawler - 404 エラーを引き起こす Bingbot
最近、Bing Web クローラーから作成された多数の 404 エラーが確認されています。IP が実際に Bing マシンであることを確認しましたが、彼らが試行している URL を試行している理由がわかりません。robots.txt ファイルを使用して、サイトをまったくクロールしないように指示したくはありませんが、同時に、存在しないページを要求し続けたくありません。Bing が特定の URL をどこから取得しているかを知る方法はありますか? を使用して Google を検索して[link:www.mywebsite.com/pagename/]
みましたが、サイトに不適切な URL があるのではなく、ボットが想定外のことを行っていると思われるものは何も見つかりませんでした。
bing - Bingbot が robots.txt を無視し、trafficbasedsspsitemap.xml を取得しようとしています
コンテンツを公開インデックスに登録してはならないアプリがあります。そのため、すべてのクローラーへのアクセスを禁止しました。
robots.txt:
しかし、Bing はこれを無視しており/trafficbasedsspsitemap.xml
、私が作成する必要のないファイルを毎日要求しています。
また、このファイルの 404 エラー通知を毎日受け取る必要もありません。bingbot を削除したいのですが、リクエストを禁止するにはどうすればよいですか?
dotnetnuke - DNN サイトをクロールする Googlebot と Bingbot
20,000 ページを超える DNN サイトがあります。Googlebot と Bingbot が常に私の Web サイトをクロールしています。
サイトログを見ると、Google と bing がページ ID (例: www.url.com/Default.aspx?TabID=5000) を介してサイトをクロールしていることがわかります。
ボットは毎分私の Web サイトを攻撃しています。新しいページを追加すると、ボットが新しく追加されたページをクロールすることを期待していますが、代わりに、ボットが非常に古いページを再クロールし、新しく追加されたページを認識するまでに数時間かかります。
次の定義を持つ 10,000 を超えるエントリを含む robot.txt ファイルがあります。
Disallow:/Default.aspx?TabID=5000
Disallow:/Default.aspx?TabID=5001
Disallow:/Default.aspx?TabID=5002
など。
だから私はいくつかの問題に気づいています:
1 - Googlebot と Bingbot は私の拒否を無視し、robots.txt で定義したページを再クロールしています - ボットはどのようにして TabID を使用して古いページに戻って再クロールすることを認識しますか?
2 - 新しいページを追加すると、両方のボットが古いコンテンツのクロールに忙しく、新しいコンテンツをすぐに読み取らないことにまだ気付きます.Google と Bing のボットに、新しく追加されたページを常に最初に読み取らせる方法はありますか?
ご提案いただきありがとうございます。
robots.txt - Bingbot は、間違ったディレクトリにある robots ファイルにアクセスしようとし続けます
BingBot が以下のファイルにアクセスしようとしています。その場所には robots.txt ファイルがありません ( http://test.com/8329/test/documents
)。どうすればこれを止めることができますか?
例外
php - Bingbot が存在しないページにアクセスしようとしています
最近、URL 構造を含む e コマース Web サイトに大きな変更を加えました。製品を表示するための URL は .htaccess によって変更され、変更されてもページの結果に影響しない短い製品説明が含まれています。
例:www.Example.com/staticFolder/non-deterministic-product-details/MODEL#.html
エラーログファイルに、次のようなページをリクエストしているbingbotが表示されますexample.com/non-deterministic-product-details
私たちのサイトマップはこのページにリンクしておらず、ページに悪いリンクを見つけることができません. ビンボットがこれを行うことに問題があった人はいますか? ランダムであるためにロックされた別の質問を見つけました。404 エラーを引き起こす Bingbot。私が何か間違ったことをしている可能性が高いですか?.htaccess で疑似ディレクトリを使用しないようにする必要がありますか?
-ありがとう