google-index - Google のインデックス登録を停止する

Question

Google によるサイトのインデックス登録を停止する方法はありますか?

score 107 · Accepted Answer

robots.txt

User-agent: *
Disallow: /

これにより、すべての検索ボットのインデックス作成がブロックされます。

詳細については、 http ://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360 をご覧ください。

score 91 · Accepted Answer

受け入れられた回答は実際には問題に適切に触れていないため、ここに回答を追加する必要があります。また、Google によるクロールを禁止しても、コンテンツを非公開にできるわけではないことに注意してください。

私の答えはいくつかの情報源に基づいています: https://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling- -索引付け---ランキング

robots.txtファイルはクロールを制御しますが、インデックス作成は制御しません! この 2 つはまったく別のアクションであり、別々に実行されます。クロールされてもインデックスに登録されないページもあれば、インデックスに登録されてもクロールされないページもあります。クロールされていないページへのリンクが他の Web サイトに存在する可能性があるため、Google インデクサーがそれをたどり、インデックスを作成しようとします。

質問は、ページに関するデータを収集して検索結果から利用できるようにするインデックス作成についてです。メタタグの追加をブロックできます。

<meta name="robots" content="noindex" />

または HTTP ヘッダーを応答に追加します。

X-Robots-Tag: noindex

質問がクロールに関するものである場合は、もちろん、robots.txtファイルを作成して次の行を配置できます。

User-agent: *
Disallow: /

クロールは、1 つの特定の Web サイトの構造に関する情報を収集するために実行されるアクションです。たとえば、Google ウェブマスターツールを使用してサイトを追加したとします。クローラーはそれを考慮して、あなたのウェブサイトにアクセスし、を検索しrobots.txtます。何も見つからない場合は、何でもクロールできると想定します (sitemap.xmlこの操作を支援し、優先順位を指定し、変更頻度を定義するために、ファイルも用意しておくことが非常に重要です)。ファイルが見つかった場合は、ルールに従います。クロールが成功すると、ある時点でクロールされたページのインデックス作成が実行されますが、それがいつなのかわかりません...

重要: これはすべて、robots.txt.

実際に何が起こっているのかを知ることが重要であるため、少なくとも一部のユーザーがこの回答を読んで理解してくれることを願っています。

score 2 · Accepted Answer

Google を含むクローラーを停止して、Web サイトのクロールとインデックス作成を停止する方法はいくつかあります。

ヘッダーを介したサーバーレベル

Header set X-Robots-Tag "noindex, nofollow"

robots.txt ファイルによるルートドメインレベル

User-agent: *
Disallow: /

robots メタタグを介したページレベル

<meta name="robots" content="nofollow" />

ただし、あなたのウェブサイトが古く、ページや URL が存在しない場合は、Google が次のクロールでそれらの URL のインデックスを自動的に解除するまで待つ必要があります - https://support.google.com/webmasters/answer/1663419?hlをお読みください=en

score 1 · Accepted Answer

以下の設定を apache conf にグローバルに追加することで、このサーバー全体を無効にすることができます。または、同じパラメーターを vhost で使用して、特定の vhost のみを無効にすることもできます。

ヘッダーセット X-Robots-Tag "noindex, nofollow"

これが完了したら、返された apache ヘッダーを確認してテストできます。

curl -I staging.mywebsite.com HTTP/1.1 302 Found Date: Sat, 26 Nov 2016 22:36:33 GMT Server: Apache/2.4.18 (Ubuntu) Location: /pages/ X-Robots-Tag: noindex, nofollowコンテンツタイプ: テキスト/html; 文字セット=UTF-8

score 0 · Accepted Answer

単純な aspx ページを使用して、一度に 100 件の結果を取得する偽の「Pref」Cookie を使用して、Google からブラウザに結果をリレーします。Google にこのリレーページを表示させたくなかったので、IP アドレスを確認し、開始するかどうかを確認します。 66.249 では、単にリダイレクトを行います。

プライバシーを重視し、コピーが必要な場合は、私の名前をクリックしてください。

私が使用するもう 1 つのトリックは、ページを呼び出してセッションでフラグを設定する JavaScript を使用することです。これは、ほとんどの (すべてではない) Web ボットが JavaScript を実行しないため、JavaScript がオフになっているブラウザーであるか、またはそれ以上のものであることがわかっているためです。ボット。

score 0 · Accepted Answer

また、次の方法でメタロボットを追加することもできます。

<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

そしてもう1つの余分なレイヤーは.htaccessを変更することですが、それを深く確認する必要があります.

score 0 · Accepted Answer

nofollow メタタグを使用します。

<meta name="robots" content="nofollow" />

リンクレベルで nofollow を指定するには、値 nofollow を持つ属性 rel をリンクに追加します。

<a href="example.html" rel="nofollow" />

score 0 · Accepted Answer

Microsoft の Bing 用クローラーは、robots.txt に従うと主張しているにもかかわらず、常にそうするとは限らないことに注意してください。

サーバーの統計によると、robots.txt に従わないクローラーを実行する IP と、従う IP が多数あることが示されています。

score 0 · Accepted Answer

Google によるサイトのインデックス登録を停止する方法はありますか?

Google のクロールを停止するには、次のmetaタグをheadすべてのページのに追加するだけです:

<meta name="googlebot" content="noindex, nofollow">

google-index - Google のインデックス登録を停止する

9 に答える 9

Related

Reference