3

robots.txt を使用して、一部のページをスパイダーから除外しています。

User-agent: * 
Disallow: /track.php

このページを参照して何かを検索すると、Google は次のように表示します。

これは、robots.txt が機能していることを意味します..しかし、ページへのリンクがまだスパイダーによって検出されるのはなぜですか? 「track.php」ページへのリンクがないようにしたいのですが、robots.txt をどのように設定すればよいですか? (または.htaccessなどのようなもの..?)

4

1 に答える 1

5

何が起こったかは次のとおりです。

  • Googlebot は、他のページで track.php へのリンクを見つけました。そのページを「source.html」としましょう。
  • Googlebot が track.php ファイルにアクセスしようとしました。
  • robots.txt は、Googlebot にファイルを読まないように指示しました。

そのため、Google は source.html が track.php にリンクしていることを認識していますが、track.php の内容は認識していません。track.php をインデックスに登録しないように Google に指示していません。track.phpのデータを読み取ってインデックスに登録しないように Googlebotに指示しました。

Googleのドキュメントが言うように:

robots.txt によってブロックされたページのコンテンツを Google がクロールしたり、インデックスに登録したりすることはありませんが、ウェブ上の他のページで URL が見つかった場合は、その URL をインデックスに登録することがあります。その結果、ページの URL と、場合によっては、サイトへのリンク内のアンカー テキストやオープン ディレクトリ プロジェクト (www.dmoz.org) のタイトルなど、他の公開情報が Google 検索結果に表示される可能性があります。

これについてできることはあまりありません。独自のページについては、そのドキュメントで説明されているようにx-robots-tagまたはを使用できます。noindex meta tagこれにより、ページ内にリンクが見つかった場合に、Googlebot が URL をインデックスに登録できなくなります。しかし、管理していないページがその track.php ファイルにリンクしている場合、Google はそのページをインデックスに登録する可能性が非常に高くなります。

于 2013-11-07T15:41:14.137 に答える