.htaccess - Google が robots.txt によって除外されたページを検出するのはなぜですか?

Question

robots.txt を使用して、一部のページをスパイダーから除外しています。

User-agent: * 
Disallow: /track.php

このページを参照して何かを検索すると、Google は次のように表示します。

これは、robots.txt が機能していることを意味します..しかし、ページへのリンクがまだスパイダーによって検出されるのはなぜですか? 「track.php」ページへのリンクがないようにしたいのですが、robots.txt をどのように設定すればよいですか? (または.htaccessなどのようなもの..?)

score 5 · Accepted Answer

何が起こったかは次のとおりです。

Googlebot は、他のページで track.php へのリンクを見つけました。そのページを「source.html」としましょう。
Googlebot が track.php ファイルにアクセスしようとしました。
robots.txt は、Googlebot にファイルを読まないように指示しました。

そのため、Google は source.html が track.php にリンクしていることを認識していますが、track.php の内容は認識していません。track.php をインデックスに登録しないように Google に指示していません。track.php内のデータを読み取ってインデックスに登録しないように Googlebotに指示しました。

Googleのドキュメントが言うように：

robots.txt によってブロックされたページのコンテンツを Google がクロールしたり、インデックスに登録したりすることはありませんが、ウェブ上の他のページで URL が見つかった場合は、その URL をインデックスに登録することがあります。その結果、ページの URL と、場合によっては、サイトへのリンク内のアンカーテキストやオープンディレクトリプロジェクト (www.dmoz.org) のタイトルなど、他の公開情報が Google 検索結果に表示される可能性があります。

これについてできることはあまりありません。独自のページについては、そのドキュメントで説明されているようにx-robots-tagまたはを使用できます。noindex meta tagこれにより、ページ内にリンクが見つかった場合に、Googlebot が URL をインデックスに登録できなくなります。しかし、管理していないページがその track.php ファイルにリンクしている場合、Google はそのページをインデックスに登録する可能性が非常に高くなります。

.htaccess - Google が robots.txt によって除外されたページを検出するのはなぜですか?

1 に答える 1

Related

Reference