問題タブ [googlebot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
5 に答える
11764 参照

web-crawler - サイトのデフォルトページのみを許可するrobot.txtを設定する方法

http://example.comにサイトがあるとします。ボットにホームページを表示させたいのですが、スパイダーには意味がないため、他のページはブロックする必要があります。言い換えると

http://example.comhttp://example.com/は許可する必要がありますが、 http://example.com/anythinghttp://example.com/someendpoint.aspxはブロックする必要があります。

さらに、特定のクエリ文字列がホームページにパススルーできるようにできれば素晴らしいと思います: http ://example.com?okparam=true

しかし、 http://example.com?anythingbutokparam=trueではありません

0 投票する
2 に答える
1468 参照

apache-flex - Flex RIA コンテンツを Google などの検索エンジンからアクセスできるようにする方法は?

Flex RIA アプリケーションのコンテンツを Google がアクセスできるようにするにはどうすればよいでしょうか。これにより、Google はコンテンツをインデックス化し、Flex RIA 内の適切なアイテムへのリンクを表示できるようになります。Flex で作成されたオンライン ショップを考えてみましょう。そこでは、提供されるアイテムが Google によってインデックス化されます。次に、Google のリンクをクリックすると、RIA で対応する製品が開きます。

0 投票する
2 に答える
260 参照

seo - 以前エイリアス化された 2 つのサイトが分離されたことを Googlebot に納得させるにはどうすればよいですか?

これには少し設定が必要です。これは正当な理由によるものだと信じてください。

背景

私の友人は、非営利の公益ウェブサイトを 2 年間運営しています。このサイトは、特定の公人に関する誤った情報に対抗するように設計されています。もちろん、この 2 年間、彼の活動を支持している私たちは、この公人の名前を検索すると非常に高く表示されるように、Google でサイトを宣伝するためにサイトに執拗にリンクしてきました。(実際には、公開者自身のサイトのすぐ下にある #2 の結果です)。彼はこの公的人物の支持を得ていませんが、彼がしていることは公共の利益と善のためです.

友人は最近脳卒中を起こしました。偶然にも、彼が入院しているときにドメイン名の更新が必要になり、彼の妻はそれについてのメールを見逃していました. ドメイン不法占拠者がドメインを勝手に取得し、彼の意図とは正反対のコンテンツを投稿しました。この不法占拠者は、現在、Google の掲載順位とページ ランクの恩恵を受けています。

幸いなことに、彼が所有していた他のドメインは、このドメインを指すようにエイリアス化されていました。つまり、DNS マッピングまたは HTTP 301 リダイレクト (どちらかはわかりません) を使用して、人々を適切なサイトに誘導していました。元のコンテンツを直接指すように、エイリアス ドメインの 1 つを再構成しました。

このサイトの新しい名前を公表し、コミュニティは現在、新しいドメインへの数千のリンクを作成し、すべての古いリンクを修正しています. キャッシュから、Google が実際に新しいアドレスの元のサイトをクロールし、なりすましサイトを再クロールしたことがわかります。

問題

Google は両方のサイトをクロールしましたが、新しい URL の下で関連する検索にサイトを表示することはできません!

Google は 2 つの名前の間の古いリダイレクトを覚えているようです (おそらく、新しいドメインがエイリアスだったときに誰かがリンクしたためでしょう)。2 つのサイトを、すべての結果で同じサイトであるかのように扱っています。サイト名の結果、および「link:」演算子を使用してこのサイトにリンクしているサイトを見つけることは、Google が同じサイトであると確信していることと完全に一致しています。

私たちは古いドメインのコンテンツを管理しておら、これらのサイトに関係する人物の協力も得ていないことに注意してください。

ドメイン「a」とドメイン「b」が 2 つの異なるサイトであり、結果でそのように扱われるべきであることを Googlebot に納得させるにはどうすればよいでしょうか?

編集:転送はおそらく DNS であり、HTTP ベースではありません。

0 投票する
4 に答える
359 参照

googlebot - ページランクは何か意味がありますか?

開発者や管理者が見て意味を理解できるものの尺度ですか? かつては 7、8、9、10 の PageRank がすべてだったことを私は知っています。しかし、それはまだ何かの有効な尺度ですか? もしそうなら、PageRank から何を学べますか?

分析できる他の測定値があると仮定していることに注意してください。

0 投票する
4 に答える
1081 参照

robots.txt - Googlebotsはrobots.txtを無視しますか?

ルートに次のrobots.txtがあるサイトがあります。

そして、このサイト内のページは、一日中Googlebotsによってスキャンされています。私のファイルまたはGoogleに何か問題がありますか?

0 投票する
2 に答える
7222 参照

web-crawler - Google キャッシュからウェブサイトをダウンロードするにはどうすればよいでしょうか?

友人が誤ってフォーラム データベースを削除してしまいました。彼がバックアップの実行を怠ったという事実を除けば、これは通常は大きな問題にはなりません。2 年間のコンテンツはあっという間になくなってしまいました。明らかに、彼は教訓を学んだ。

ただし、良いニュースは、個々のサイト所有者がばかであっても、Google がバックアップを保持していることです。悪いニュースは、従来のクロール ロボットが Web サイトの Google キャッシュ バージョンで窒息することです。

Google キャッシュをトロールするのに役立つものはありますか、それとも自分で作成するにはどうすればよいですか?

0 投票する
4 に答える
2714 参照

robots.txt - Googlebot が Robots.txt を尊重しない

何らかの理由で、Google Webmaster Tool の「Analyze robots.txt」をチェックして、どの URL が robots.txt ファイルによってブロックされているかを確認すると、期待どおりではありません。ファイルの先頭からのスニペットを次に示します。

Googlebot と Mediapartners-Google の両方で、scripts フォルダー内のすべてが正しくブロックされます。Mediapartners-Google は 4 行目からブロックされているのに対し、Googlebot はスクリプトが 7 行目からブロックされていることを示しているため、2 つのロボットが正しいディレクティブを認識していることがわかります。 -agent ディレクティブはブロックされません!

私のコメントや絶対URLの使用が問題を引き起こしているのではないかと思っています...

どんな洞察も高く評価されます。ありがとう。

0 投票する
5 に答える
642 参照

seo - これはブラックハットSEOテクニックですか?

完全にフラッシュで開発されたサイトがあります。現在、サイトの所有者は、より多くのテキスト/html ベースのサイトに移行することを望んでいません。そのため、Googlebot がリダイレクトされる別の html/text ベースのサイトを作成することを計画しています。(ユーザーエージェントをチェックすることによって)。私の質問は、これが Google によって公式に許可されているということですか?

そうでない場合、ユーザーとは異なるデータ セットを Google に表示するサブスクリプション ベースのサイトが多数存在するのはなぜでしょうか? それは許されますか?

どうもありがとうございました。

0 投票する
3 に答える
733 参照

robots.txt - Googlebot は私のサイトをインデックスに登録しますか?

私の robots.txt ファイルには、次の行があります

ユーザー エージェント: Googlebot-Mobile Disallow: /

User-agent:GoogleBot Disallow: /

サイトマップ: http://mydomain.com/sitemapindex.xml

最初の 4 行を配置すると、Googlebot はサイトをインデックスに登録しないことはわかっていますが、最後の行Sitemap: http://mydomain.com/sitemapindex.xmlを配置すると、Googlebot はサイトをインデックスに登録できますか?

ありがとう、

0 投票する
4 に答える
172 参照

seo - Googlebot がマーケティング URL をインデックスに登録しようとしているかどうかを気にする必要がありますか?

最近、Google Webmaster Toolsを使い始めました。

Google がインデックスに登録しようとしているリンクの数を見て、私は非常に驚きました。

これらはすべて、パートナー サイトからのリンクとして存在するキャンペーンです。

現時点では、サイトが完成するまで、ロボット ファイルによってすべて拒否されています。これは、サイトのすべてのページと同様です。

robots.txt ファイルの制限を緩和する前に、このようなリンクに対処するための最善の方法は何だろうと考えています。

それらが別の URL として扱われ、Google の検索結果に表示されるようになるのではないかと心配しています。それらはすべて同じページに対応しています-ギブまたはテイク。人々がそれらをそのまま見つけてクリックしてほしくありません。

これまでの最良のアイデアは、次のようにクエリ文字列を含むページをレンダリングすることです。

これを行う必要がありますか? これは最善のアプローチですか?

編集:これは良いアプローチではないことが判明しました。Google は、NOINDEX を持たない別のページと同じコンテンツを持つページで NOINDEX を見ていることがわかりました。どうやらそれらは同じものであり、NOINDEXが優先されます。その結果、私のサイトは Google から完全に姿を消しました。警告: それは私が同時に行った何かだったかもしれませんが、私はこのアプローチを危険にさらすつもりはありません.