私が自分のサイトを開発していたとき。たとえば、私のページはすべて dir1/dir2/page.htm/par1-par2 ですが、タイプミスは dir1/dir2/page/par1-par2 でした (注: .htm なし)。
1 日だけ運用されていましたが、Google はこれらのリンクをクロールし続けています。Googleがそれをやめさせるにはどうすればよいですか?
ちなみに、それは1ページではなく、数百、数千ページです。
私が自分のサイトを開発していたとき。たとえば、私のページはすべて dir1/dir2/page.htm/par1-par2 ですが、タイプミスは dir1/dir2/page/par1-par2 でした (注: .htm なし)。
1 日だけ運用されていましたが、Google はこれらのリンクをクロールし続けています。Googleがそれをやめさせるにはどうすればよいですか?
ちなみに、それは1ページではなく、数百、数千ページです。
robots.txt を使用して、このページ (url) へのアクセスを拒否してみてください
http://www.robotstxt.org/robotstxt.html
http://support.google.com/webmasters/bin/answer.py?hl=ja&answer=156449
ここで robots.txt をテストします: http://www.frobee.com/robots-txt-check/
patterns must begin with / because robots.txt patterns always match absolute URLs.
* matches zero or more of any character.
$ at the end of a pattern matches the end of the URL; elsewhere $ matches itself.
* at the end of a pattern is redundant, because robots.txt patterns always match any URL which begins with the pattern.
ページが存在し(おそらくmod_rewriteを使用しているため)、カスタムページが見つからないが、http 410 Goneヘッダーを送信していない場合header("HTTP/1.0 410 Gone");
、Googleはそのページが削除されたことを認識せず、同じようにインデックスを作成します。
適切なヘッダーを追加するか、ページを削除するか、独自の404をレンダリングしない必要があります。これにより、サーバー404にヒットし、Googleがインデックスからページを削除します。また、ページの削除は一晩では行われません。
また、robots.txtファイルにURLを追加することもできます。これは、インデックスからページを削除することを保証するものではありません。他の人が言っているようにgoogleに連絡することもできますが、応答や削除を取得することは保証されません。
User-agent: *
Disallow: /dir1/dir2/page/par1-par2
幸運を。
Google には、インデックスからページを削除するよう依頼できるフォームがあります。
このリンクで情報をチェックしてください:
http://support.google.com/webmasters/bin/answer.py?hl=ja&answer=164734