jquery - googlebot は jQuery の $.get() 呼び出しで URL をクロールしますか?それを防ぐことはできますか?

Question

この ajaxForm jQuery pluginを使用したフォームを持つページがあります。フォームが送信され、完了すると、$.get() を使用して呼び出しが行われ、新しいコンテンツがページに読み込まれます。

私の問題は、Googlebot が $.get() メソッドで URL のインデックスを作成しているように見えることです。

私の最初の質問は、それは可能ですか? 私は、Googlebot がほとんどの場合 JavaScript を評価していないという印象を受けました (!# を使用して URL のコンテンツをインデックスに登録できるという記事を読みました)。

2 番目の質問は、Google がこの呼び出しをその URL にインデックス付けしている場合、それを防ぐ方法はありますか?

前もって感謝します。

score 3 · Accepted Answer

あなたはrobots.txt具体的にファイルをすることができます、googlebotはそれを尊重するべきです。

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

また、GoogleのWebmaster Centralを調べて、リストからファイルを削除することもできます。

score 2 · Accepted Answer

まず最初に、それが本当にGoogleBotであることを確認する必要があります。これは、正当なユーザーであっても、だれでもGoogleBotのふりをすることができるためです。

推奨される手法は、DNSの逆引き参照を実行し、名前がgooglebot.comドメインにあることを確認してから、そのgooglebot.com名を使用して対応するDNS->IPの逆引き参照を実行することです。

公式Googleウェブマスターセントラルブログからの情報：Googlebotを確認する方法。

score 1 · Accepted Answer

googlebotは、inline-javascript内のほとんどすべての文字列を、「/」または一般的なファイル拡張子（ ".html"、 "。php"）を含むURLとして解釈します...特に最初の文字列は非常に煩わしいものです。

クロールされたくないインラインJSのすべてのURLを混乱させます。つまり、「/」を「|」に置き換えますサーバー側で、「|」を置き換えるJSでラッパーメソッドを作成します再び「/」に。

はい、それは主に迷惑であり、より良い方法があります。つまり、クロールできない外部ファイルにすべてのjsを含めることです。

robots.txtソリューションは実際にはソリューションではありません。URLはまだ検出され、検出にプッシュされますが（Googleが次にクロールするものを決定するために使用するパイプ）、クロールはブロックされます。これは基本的に1つの機会を逃したものです。

3 に答える 3