Google は robots.txt でワイルドカードをサポートしています。robots.txt の次のディレクティブにより、Googlebot はパラメータを持つページをクロールできなくなります。
Disallow: /*?
ワイルドカードは標準の robots.txt の一部ではないため、他の多くのスパイダーがこれらの URL をクロールするのを防ぐことはできません。
Google は、ブロックした URL を検索インデックスから削除するのに時間がかかる場合があります。追加の URL は、数か月にわたってインデックスに登録される可能性があります。ブロックされた後、ウェブマスター ツールの [URL の削除] 機能を使用すると、プロセスを高速化できます。ただし、これは、削除したい個々の URL を個別に貼り付ける必要がある手動のプロセスです。
また、Googlbot がパラメータのないバージョンの URL を見つけられない場合、この robots.txt ルールを使用すると、サイトの Google ランキングが損なわれる可能性があります。パラメータを使用してバージョンに頻繁にリンクする場合は、robots.txt でそれらをブロックしたくないでしょう。以下の他のオプションのいずれかを使用することをお勧めします。
より良いオプションは、各ページでrel canonical メタ タグを使用することです。
したがって、両方の例の URL の head セクションには次のようになります。
<link rel="canonical" href="http://www.site.com/shop/maxi-dress">
これにより、Googlebot はページの多くのバリエーションをインデックスに登録せず、選択した URL の「正規」バージョンのみをインデックスに登録するようになります。robots.txt を使用する場合とは異なり、Googlebot はさまざまな URL パラメータを使用している場合でも、すべてのページをクロールして値を割り当てることができます。
もう 1 つのオプションは、Google ウェブマスター ツールにログインし、[クロール] セクションにある [URL パラメータ] 機能を使用することです。
そこに来たら、「パラメータの追加」をクリックします。「product_type」を「ページ コンテンツに影響しない」に設定して、Google がそのパラメータでページをクロールおよびインデックス登録しないようにすることができます。
ページを変更しない、使用するパラメーターごとに同じことを行います。