4

/node/ パターンを持つ URL をインデックスに登録しないようにクローラー / ボットに指示するにはどうすればよいですか? 以下は初日からのものですが、Google がまだ /node/ を含む多くの URL をインデックスしていることに気付きました。たとえば、www.mywebsite.com/node/123/32

許可しない: /node/

/node/ を含む URL のインデックスを作成しないと述べているものはありますか? 次のように書く必要があります: Disallow: /node/*

更新: 実際の問題は次のとおりです: Disallow: /node/ in robots.txt, Google はこの URL の下のページをインデックスに登録しました (例: www.mywebsite.com/node/123/32)

/node/ は物理ディレクトリではありません。これは drupal 6 がそのコンテンツを表示する方法です。これは、ノードがディレクトリではなく、コンテンツ用に drupal によって生成される URL の一部にすぎないという私の問題だと思います。これを処理するにはどうすればよいですか? これは機能しますか?

許可しない: /*ノード

ありがとう

4

3 に答える 3

7

Disallow: /node//node/(ホストの後)で始まる URL は許可されません。アスタリスクは必要ありません。

したがって、www.mysite.com/node/bar.html はブロックされますが、www.mysite.com/foo/node/bar.html はブロックされません。

を含むものをブロックしたい場合は/node/、次のように書く必要がありますDisallow: */node/

Googlebot は robots.txt を最大 7 日間キャッシュできることにも注意してください。そのため、今日 robots.txt を変更すると、Googlebot が robots.txt のコピーを更新するまでに 1 週​​間かかる場合があります。その間、キャッシュされたコピーが使用されます。

于 2012-04-13T15:48:27.827 に答える
0

Disallow: /node/*まさにあなたがやりたいことです。検索エンジンはrobots.txt表記でワイルドカードをサポートしており、*文字は「任意の文字」を意味します。詳細については、robots.txtに関するGoogleのメモを参照してください。

アップデート

検索エンジンがディレクトリおよびその下のすべてのディレクトリに含まれないようにする別の方法は、ロボットのHTTPヘッダーで検索エンジンをブロックすることです。nodeこれは、ディレクトリ内のhtaccessファイルに次のものを配置することで実行できます。

Header set x-robots-tag: noindex
于 2012-04-13T11:44:40.737 に答える
0

元の Disallow は問題ありませんでした。Jim Mischel のコメントは的を射ているように見え、Googlebot が更新された robots.txt を取得して関連ページのインデックスを解除するのに時間がかかっただけなのだろうかと思いました。

いくつかの追加の考え:

robots.txt にページ URL を含めた場合でも、ページ URL が Google 検索結果に表示されることがあります。参照: http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449 ("...Google は robots.txt によってブロックされたページのコンテンツをクロールしたりインデックスに登録したりしませんが、ウェブ上の他のページで URL が見つかった場合は、引き続きその URL をインデックスに登録します。") 多くの人にとって、これは直感に反します。

次に、Google ウェブマスター ツール ( https://www.google.com/webmasters/tools/home?hl=en ) でサイトの所有権を確認してから、Health->「Fetch as Google」などのツールを使用することを強くお勧めします。 」をクリックすると、ページの取得に関連するリアルタイムの診断が表示されます。(この結果は、robots.txt がクロールを妨げていることを示していますか?)

私は使っていませんが、Bing にも同様のツールがあります: http://www.bing.com/webmaster/help/fetch-as-bingbot-fe18fa0d。Google や Bing などで提供されている診断ツールを使用して、サイトでリアルタイムの診断を実行する価値は十分にあると思われます。

この質問は少し古いので、元の問題を解決していただければ幸いです。

于 2013-02-01T21:15:50.823 に答える