12
http://www.site.com/shop/maxi-dress?colourId=94&optId=694
http://www.site.com/shop/maxi-dress?colourId=94&optId=694&product_type=sale

上記のような URL が何千もあります。さまざまな組み合わせと名前。クエリ文字列を持つこれらの URL の複製もありますproduct_type=sale

Googleが何かをインデックスに登録するのを無効にしたいproduct_type=sale

これは robots.txt で可能ですか

4

2 に答える 2

22

Google は robots.txt でワイルドカードをサポートしています。robots.txt の次のディレクティブにより、Googlebot はパラメータを持つページをクロールできなくなります。

Disallow: /*?

ワイルドカードは標準の robots.txt の一部ではないため、他の多くのスパイダーがこれらの URL をクロールするのを防ぐことはできません。

Google は、ブロックした URL を検索インデックスから削除するのに時間がかかる場合があります。追加の URL は、数か月にわたってインデックスに登録される可能性があります。ブロックされた後、ウェブマスター ツールの [URL の削除] 機能を使用すると、プロセスを高速化できます。ただし、これは、削除したい個々の URL を個別に貼り付ける必要がある手動のプロセスです。

また、Googlbot がパラメータのないバージョンの URL を見つけられない場合、この robots.txt ルールを使用すると、サイトの Google ランキングが損なわれる可能性があります。パラメータを使用してバージョンに頻繁にリンクする場合は、robots.txt でそれらをブロックしたくないでしょう。以下の他のオプションのいずれかを使用することをお勧めします。


より良いオプションは、各ページでrel canonical メタ タグを使用することです。

したがって、両方の例の URL の head セクションには次のようになります。

<link rel="canonical" href="http://www.site.com/shop/maxi-dress">

これにより、Googlebot はページの多くのバリエーションをインデックスに登録せず、選択した URL の「正規」バージョンのみをインデックスに登録するようになります。robots.txt を使用する場合とは異なり、Googlebot はさまざまな URL パラメータを使用している場合でも、すべてのページをクロールして値を割り当てることができます。


もう 1 つのオプションは、Google ウェブマスター ツールにログインし、[クロール] セクションにある [URL パラメータ] 機能を使用することです。

そこに来たら、「パラメータの追加」をクリックします。「product_type」を「ページ コンテンツに影響しない」に設定して、Google がそのパラメータでページをクロールおよびインデックス登録しないようにすることができます。

ここに画像の説明を入力

ページを変更しない、使用するパラメーターごとに同じことを行います。

于 2013-10-01T11:18:18.543 に答える
9

はい、これは非常に簡単です。robots.txt ファイルに次の行を追加します。

許可しない: /*product_type=sale

先頭のワイルド カード (*) は、これを含む URL がproduct_type=saleGoogle によってクロールされなくなることを意味します。

以前に存在していた場合は引き続き Google のインデックスに残る可能性がありますが、Google はそれらをクロールしなくなり、Google 検索で表示すると、次のように表示されます:このサイトの robots.txt のため、この結果の説明は利用できません – 詳細.

詳細はこちら: Robots.txt の仕様

于 2013-10-01T11:01:18.430 に答える