問題タブ [googlebot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-crawler - Googlebot が Ajax 化されたリンクをクロールしないようにするにはどうすればよいですか?
賛成票を投じたり、反対票を投じたり、投稿にフラグを立てたりするなどのことを行う、ajax化されたリンクがたくさんあります-標準的なコミュニティモデレーションのものです。
問題は、Googlebot がこれらのリンクをクロールし、賛成票を投じ、反対票を投じ、項目にフラグを立てることです。
これを robots.txt に追加すると、Googlebot はこれらのリンクをクロールできなくなりますか? または、他に何かする必要がありますか?
ありがとう!
編集:メソッドを投稿に変更しましたが、googlebot はまだ投稿にフラグを立てています。
構文は次のとおりです。
何かご意見は?
indexing - Googlebot がページの特定の部分をインデックスに登録しないようにする方法はありますか?
ページの一部を無視し、残りをインデックスに登録するように、Google へのディレクティブを微調整することは可能ですか?
私たちが遭遇したいくつかの異なる問題があり、これによって助けられるでしょう:
- 外部ソースからのコンテンツを表示するページ上の RSS フィード/ニュース ティッカー タイプのテキスト
- 連絡先の電話番号などの詳細を入力するユーザー。サイトに表示されることを希望するが、Google 対応は望まない
上記の両方が他の手法 (JavaScript を使用してコンテンツを作成するなど) で解決できることは承知していますが、Google からよりクリーンなオプションが既に提供されているかどうかを知っている人はいますか?
googleon
私はこれについて掘り下げていて、とgoogleoff
タグの言及に出くわしましたが、これらは Google 検索アプライアンス専用のようです。
Googlebot が準拠する同様のタグのセットがあるかどうか、誰か知っていますか?
編集:明確にするために、私はGoogleにさまざまなコンテンツをクローキング/提供するという危険な道をたどりたくありません.ここで行う。
web-crawler - Googlebot(または他の効率的なWebクローラー)はどのプログラミング言語で書かれていますか?
Googlebotがどのプログラミング言語で書かれたか知っている人はいますか?
または、より一般的には、効率的なWebクローラーはどの言語で記述されていますか?
私はJava言語で多くのことを見てきましたが、Webクローラーを開発するのに最適な言語ではないようです。オーバーヘッドが非常に大きくなるためです(Heritrix Webクローラーで試してみましたが、非常に重いです)。
web-crawler - ボット Web 品質
私は、Google のインデックス作成にしばしば必要とされる品質を判断するための優れたオープン ソース ボットを探しています。
例えば
- 重複したタイトルを見つける
- 無効なリンク (jspider はこれを行いますが、もっと多くのリンクがこれを行うと思います)
- まったく同じページですが、URL が異なります
- など。ここで、etc は Google の品質要件に相当します。
seo - Googlebotが新しく追加されたサイトをURLの長さの昇順でトラバースするのはなぜですか?
Googlebot(Googlebot / 2.1)は、新しく追加されたサイトのURLを、URLの長さに対応する順序でクロールしているように見えます。
私はこの正確なパターンを複数(> 10)の完全に独立したサイトで見たので、順序は単なる偶然の一致ではありません。
混乱を避けるために、クロールの順序は、Googlebotの動作の非常に小さな詳細のように見える場合があります。はい、それは実際には小さな詳細ですが、それでも、Googlebotがネットをクロールする方法の技術的な詳細を理解したいと思います。そして、クロールの順序はそのような詳細の1つです。この知識が「役に立たない」と信じている場合、それはまったく問題ありませんが、あなたの貢献はあまり役に立たないので、このページを答えで汚さないでください。役に立たない回答は、SOハウスのルールに従って却下されます。
私の質問は次のとおりです。
- あなたは(そうです、あなたは個人的に-あなたが読んだブログなどではありません)このクロールパターンを観察しましたか?
- クロールパターンはGoogleによって公式に文書化されていますか?
- このクロールパターンを選択した理由は何でしょうか。
3つすべての質問に答えてみてください。
unix - Google が最後にクロールした方法を調べる
大量のページ セットの Google のキャッシュ コピーが現在どの程度のものかを知りたいです。する必要があると思います
- ログで IP を調べます。
- ユーザーエージェント「googlebot」を確認してから、
- 各ページと最後にアクセスした日時を示すリストをエクスポートします。
これは、毎週実行される cron ジョブである可能性があると思います。これが正しい場合、スクリプトはどのように記述しますか? これが間違っている場合、より良い方法は何でしょうか?
seo - Googleはあなたがクローキングしていることをどのように知っていますか?
あなたがあなたのコンテンツをクロークしているかどうかをグーグルがどのように判断するかについての情報を見つけることができないようです。技術的な観点から、彼らはこれをどのように決定していると思いますか?彼らはグーグルボット以外のものを送って、それをグーグルボットの結果と比較していますか?彼らは比較している人間のチームを持っていますか?または、名前に「googlebot」が含まれているため、ユーザーエージェントを確認し、別のコードパスを実行したことをどういうわけか伝えることができますか?
これは、seoの正当なURLクローキングに関するこの質問に関連しています。テキストコンテンツがまったく同じであるが、レンダリングが異なる場合(1995スタイルのhtmlとajaxとflash)、クローキングに本当に問題がありますか?
これをつけてくれてありがとう。
asp.net-mvc - ASP.NET MVC GoogleBot の問題
私は ASP.NET MVC を使用してサイトを作成しました。この時点では完全に SEO 最適化されていませんが、良い出発点であると考えました。私が見つけたのは、Google の Webmaster Tools を使用して自分のサイトを取得すると (GoogleBot が何を見ているかを確認するため)、これが表示されるということです。
明らかに、これは私のサイトの外観とは異なります。Google がその HTML をどこから取得しているかはわかりません。誰か答えと解決策を持っていますか?誰も同じ問題を経験していますか?
前もって感謝します。
performance - googlebotの読み込みを高速化するためにサイト間で最適化することの正当性
私が持っている質問は少し倫理的なものです。
私はここで、グーグルが迅速にロードするように最適化されたサイトにもう少し影響を与えることを読みました。明らかに、これによりGoogleの仕事が簡単になり、使用するリソースが少なくなり、すべての人にとってより良い体験になるので、報酬を与えてみませんか?
最近では、ボトルネックを見つけてページの読み込み速度を向上させる実際のプロセスがよく理解されています。YSlowのようなツールを使用し、ファイルの数を減らすことが標準的な方法になりつつあります(これは素晴らしいことです!)
それで、より速くダウンロードされるgooglebot(または他の検索ボット)カスタムコンテンツを提供することは公正/スマート/コーシャですか?(つまり、javasript、images、cssはありません)それとも、あなたを詐欺師としてフラグを立てて、グーグルから検索できないサイトを混乱させますか?
個人的にはリスクを冒したくないのですが、実際には訪問者のパフォーマンスを向上させたいと思っています。しかし、現状ではこのトピックに関する情報はあまりないので、私はそれをそこに捨てると思いました。
編集:
考慮に入れるかもしれないいくつかの新しい情報を見つけました。
Googleのウェブマスターツールから:http ://www.google.com/support/webmasters/bin/answer.py?answer = 158541&hl = en
ページの読み込み時間は、ユーザーがページへのリンクをクリックしてから、ページ全体が読み込まれてブラウザに表示されるまでの合計時間です。これは、Googleツールバーをインストールし、オプションのPageRank機能を有効にしているユーザーから直接収集されます。
検索結果のページをランク付けするために同じアルゴリズムを使用するという保証はありませんが、実際に最も重要なのは実際のユーザーエクスペリエンスであることを示している可能性があります。
seo - Google のクロール/インデックス作成の頻度が増加していますか?
少し前まで、Google はインデックスとバックリンクを 3 ~ 4 か月ごとに更新していました。以前は大きなアップデートでした。最近、更新頻度が高すぎることに気づきました。Google のクロール、インデックス、バックリンクの更新におけるこの種の変更に気付いた人はいますか?