問題タブ [google-crawlers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - カスタム Web クローラーがブロックされないようにする
特定の Web サイトをクロールするために使用する新しいWeb クローラーを作成しています。C#すべてがうまくいく。しかし問題は、一部の Web サイトが、いくつかのリクエストの後にクローラーの IP アドレスをブロックしていることです。クロール リクエスト間にタイムスタンプを使用してみました。しかし、うまくいきませんでした。
Web サイトがクローラーをブロックしないようにする方法はありますか? このようないくつかの解決策が役立ちます(ただし、それらを適用する方法を知る必要があります):
- Google bot または yahoo slurp をシミュレートする
- 複数の IP アドレス(イベント フェイク IP アドレス) をクローラー クライアント IP として使用する
どんな解決策も役立ちます。
search-engine - robots.txt でクロール速度を制御することはできますか?
robot.txt で、ボットにウェブサイトをクロールするかクロールしないように指示できます。一方、Google Webmasters ではクロール速度 (Google ボットが Web サイトをクロールする量) を制御できます。robots.txt でクローラーの活動を制限することはできないのだろうか
つまり、ボットがページをクロールするのを受け入れるが、ボットの存在を時間、ページ、またはサイズで制限するということです!
ajax - シバン/ハッシュバンは何のためですか?
AJAXコンテンツをGoogleでクロール可能にする以外に、シバン/ハッシュバンの用途はありますか? それともそれですか?
robots.txt - robots.txt コンテンツ自体はインデックス化されていますか?
私の robots.txt ファイルの内容は、実際にはそれ自体がインデックス化されており、Google の検索結果に表示されます。たとえば、Yahoo ではなく Google のみです。私のロボットファイルのコンテンツをインデックスに登録しない
ことをGoogleは理解すべきだと本当に思います。インデックスに登録しないものをGoogleに伝えるためだけにあるからです ここで何か不足していますか?
seo - robots.txt によって Google のクロール ページがブロックされるのはなぜですか?
Google がクロールしたページの数について「二重」の質問があります。おそらく、重複コンテンツの可能性との関連性 (またはそうでないこと) と SEO への影響です。
私のページ数と Google によってクロールされたページに関する事実
2か月前に新しいウェブサイトを立ち上げました。現在は 150 ページ近くあります (毎日増えています)。とにかく、これは私のサイトマップのページ数です。
Google ウェブマスターの「Crawl stats」を見ると、Google が毎日クロールするページの数がはるかに多いことがわかります (下の画像を参照)。
サーバーが少しビジーになるだけでなく (1 日 903 ページで 5.6 MB のダウンロード)、コンテンツが重複するのではないかと心配です。
Google (site:mysite.com) で確認したところ、1290 ページが返されました (ただし、[省略された結果を含めて検索を繰り返す] をクリックしない限り、191 ページしか表示されません。191 ページがサイトマップにあるとします。 (40ページ程度の重複コンテンツの問題があると思いますが、そのためにウェブサイトを更新するだけです)。
robots.txt に関する事実
robots.txt ファイルを使用して、すべてのクロール エンジンがパラメーター (以下のロボットを参照) と「タグ」を含むページにアクセスできないようにします。
最も重要なのはタグです。それらは次のように私のURLにあります:
robots.txt によってブロックされています (Google ウェブマスターに確認しました) が、Google 検索にはまだ存在しています (ただし、[省略された結果を含めて検索を繰り返す] をクリックする必要があります)。
これらのページは重複したコンテンツであるためクロールされたくありません (キーワードによる検索の一種です)。そのため、robots.txt に入れています。
最後に、私の質問は次のとおりです。
robots.txt でブロックしたページを Google がクロールするのはなぜですか?
ブロックしたページが Google のインデックスに登録されるのはなぜですか? それらのページは、Google によって重複コンテンツと見なされますか? はいの場合、SEO に悪いと思います。
編集: Google にインデックスされたページを削除する方法を尋ねているわけではありません (答えは既にわかっています)。
ajax - Googlebot は、`?_escaped_fragment_=` URL をリクエストしたときに、ウェブサーバーがクローキングしていないことをどのように判断しますか?
Google の AJAX クロール仕様に関して、が に置き換えられたときに、サーバーがURL の 1 つ (つまり、JavaScript が重いファイル) と別のもの(つまり、ページの「html スナップショット」) を Googlebot に返す場合、私に隠れているように感じます。結局のところ、Googlebot は、サーバーが URLとURLの両方に対して誠実に相当するものを返すことをどのようにして確認するのでしょうか。しかし、これは AJAX クロール仕様が実際に Web マスターに指示していることです。何か不足していますか?Googlebot は、サーバーが両方のケースで同じコンテンツを返すことをどのように確認していますか?#!#!?_escaped_fragment_=#!?_escaped_fragment_=
debugging - Google が Cakephp Web サイトの説明にエラーを表示
私は Cakephp Web サイトを持っています。Google で検索すると、サイトが正常に機能しているにもかかわらず、説明にエラーが表示されます。
表示されるエラー:
エラーについて「インターネットを検索」したところ、いくつかの CakePHP Web サイトで同じ問題が発生していることがわかりました。それらは正常に動作しますが、Google の説明にエラーがあります。メタ タグがソース ページに正しく表示されます。
誰が何が悪いのか知っていますか?
デバッグをゼロに設定し、サイト マップ、robots.txt ファイルをアップロードしましたが、現在 Bing と Yahoo で同じ問題が発生していても、同じ問題に悩まされています。
誰かが私に手を差し伸べることができれば、本当に感謝しています。
ruby-on-rails - Rails サイトで GoogleBot Mobile がエラーをスローする
1 日に何度か、ページの形式が正しくないというエラーが表示されます。
エラー環境:
毎回、そのページをクロールしようとしているのは GoogleBot Mobile のようです。
Rails 3.0.7 と Nginx / Passenger Web サーバーを使用しています。このエラーがスローされないようにするために、モバイル クローラーに関連して設定することはありますか?
html - Google エンジンがウェブサイトのリンクとプレビューのセクションを参照しないようにするにはどうすればよいですか
私の HTML5 Web サイトでは、「脇」のコンテンツにナビゲーション リンクが含まれていることが多く、訪問者を他のページに誘導することができます。このようなナビゲーション リンクには、ページのタイトルと、場合によってはコンテンツのプレビューが含まれます。これらのリンクはランダムに作成され、キャッシュ構成に基づいて変更される可能性があります。
検索エンジンに対して、このコンテンツは参照に関係がなく、わざわざ参照すべきではないとどのように言えますか? 要素でそれを指定する HTML 属性はありますか?
たとえば、「Top Music 2011」というページがあります。次のリクエストで Google を検索すると、site:deadrooster.org "Top Music 2011"多くの結果が見つかりますが、幸いなことに最初の 1 つだけが本当に適切です。他のページは、生涯に 1 回、「トップ ミュージック 2011」ページへのリンクが含まれていたために返されましたが、ユーザーがリンクをクリックしようとした時点で、それが依然として当てはまるかどうかを確認できません。そして、私はそれを修正したいと思います。