Google によるサイトのインデックス登録を停止する方法はありますか?
9 に答える
robots.txt
User-agent: *
Disallow: /
これにより、すべての検索ボットのインデックス作成がブロックされます。
詳細については、 http ://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360 をご覧ください。
受け入れられた回答は実際には問題に適切に触れていないため、ここに回答を追加する必要があります。また、Google によるクロールを禁止しても、コンテンツを非公開にできるわけではないことに注意してください。
私の答えはいくつかの情報源に基づいています: https://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling- -索引付け---ランキング
robots.txt
ファイルはクロールを制御しますが、インデックス作成は制御しません! この 2 つはまったく別のアクションであり、別々に実行されます。クロールされてもインデックスに登録されないページもあれば、インデックスに登録されてもクロールされないページもあります。クロールされていないページへのリンクが他の Web サイトに存在する可能性があるため、Google インデクサーがそれをたどり、インデックスを作成しようとします。
質問は、ページに関するデータを収集して検索結果から利用できるようにするインデックス作成についてです。メタ タグの追加をブロックできます。
<meta name="robots" content="noindex" />
または HTTP ヘッダーを応答に追加します。
X-Robots-Tag: noindex
質問がクロールに関するものである場合は、もちろん、robots.txt
ファイルを作成して次の行を配置できます。
User-agent: *
Disallow: /
クロールは、1 つの特定の Web サイトの構造に関する情報を収集するために実行されるアクションです。たとえば、Google ウェブマスター ツールを使用してサイトを追加したとします。クローラーはそれを考慮して、あなたのウェブサイトにアクセスし、 を検索しrobots.txt
ます。何も見つからない場合は、何でもクロールできると想定します (sitemap.xml
この操作を支援し、優先順位を指定し、変更頻度を定義するために、ファイルも用意しておくことが非常に重要です)。ファイルが見つかった場合は、ルールに従います。クロールが成功すると、ある時点でクロールされたページのインデックス作成が実行されますが、それがいつなのかわかりません...
重要: これはすべて、robots.txt
.
実際に何が起こっているのかを知ることが重要であるため、少なくとも一部のユーザーがこの回答を読んで理解してくれることを願っています。
Google を含むクローラーを停止して、Web サイトのクロールとインデックス作成を停止する方法はいくつかあります。
ヘッダーを介したサーバー レベル
Header set X-Robots-Tag "noindex, nofollow"
robots.txt ファイルによるルート ドメイン レベル
User-agent: *
Disallow: /
robots メタ タグを介したページ レベル
<meta name="robots" content="nofollow" />
ただし、あなたのウェブサイトが古く、ページや URL が存在しない場合は、Google が次のクロールでそれらの URL のインデックスを自動的に解除するまで待つ必要があります - https://support.google.com/webmasters/answer/1663419?hlをお読みください=en
以下の設定を apache conf にグローバルに追加することで、このサーバー全体を無効にすることができます。または、同じパラメーターを vhost で使用して、特定の vhost のみを無効にすることもできます。
ヘッダー セット X-Robots-Tag "noindex, nofollow"
これが完了したら、返された apache ヘッダーを確認してテストできます。
curl -I staging.mywebsite.com HTTP/1.1 302 Found Date: Sat, 26 Nov 2016 22:36:33 GMT Server: Apache/2.4.18 (Ubuntu) Location: /pages/ X-Robots-Tag: noindex, nofollowコンテンツ タイプ: テキスト/html; 文字セット=UTF-8
単純な aspx ページを使用して、一度に 100 件の結果を取得する偽の「Pref」Cookie を使用して、Google からブラウザに結果をリレーします。Google にこのリレー ページを表示させたくなかったので、IP アドレスを確認し、開始するかどうかを確認します。 66.249 では、単にリダイレクトを行います。
プライバシーを重視し、コピーが必要な場合は、私の名前をクリックしてください。
私が使用するもう 1 つのトリックは、ページを呼び出してセッションでフラグを設定する JavaScript を使用することです。これは、ほとんどの (すべてではない) Web ボットが JavaScript を実行しないため、JavaScript がオフになっているブラウザーであるか、またはそれ以上のものであることがわかっているためです。ボット。
また、次の方法でメタ ロボットを追加することもできます。
<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>
そしてもう1つの余分なレイヤーは.htaccessを変更することですが、それを深く確認する必要があります.
nofollow メタ タグを使用します。
<meta name="robots" content="nofollow" />
リンク レベルで nofollow を指定するには、値 nofollow を持つ属性 rel をリンクに追加します。
<a href="example.html" rel="nofollow" />
Microsoft の Bing 用クローラーは、robots.txt に従うと主張しているにもかかわらず、常にそうするとは限らないことに注意してください。
サーバーの統計によると、robots.txt に従わないクローラーを実行する IP と、従う IP が多数あることが示されています。
Google によるサイトのインデックス登録を停止する方法はありますか?
Google のクロールを停止するには、次のmeta
タグをhead
すべてのページの に追加するだけです:
<meta name="googlebot" content="noindex, nofollow">