2

次のような URL があります: /products/:product_id/deals/new /products/:product_id/deals/index

robots.txt ファイルで「deals」フォルダを禁止したいです。

[編集] Google、Yahoo、および Bing Bot に対してこのフォルダーを許可しないようにします。これらのボットがワイルドカード文字をサポートしており、次のルールをサポートするかどうかを知っている人はいますか?

Disallow: /products/*/deals

また... robots.txt のルールについて本当に優れたチュートリアルはありますか? 「本当に」良いものを見つけることができなかったので、それを使用できました...

最後の質問: robots.txt はこれを処理するための最良の方法ですか? または、「noindex」メタを使用する方がよいでしょうか?

ありがとうございます!:)

4

2 に答える 2

2

はい、主要な検索エンジンはすべて基本的なワイルドカードをサポートしており、ソリューションは取引ディレクトリ*を許可しないように機能します。

robots.txt について学ぶのに最適な場所は、Google デベロッパー ページです。何が機能し、何が機能しないかについての多くの例を提供します。たとえば、多くの人は robots.txt ファイルがプロトコル固有であることを知りません。そのため、接続時にページをブロックする場合は、 https:https //yoursite.com/robots.txt に robots.txt があることを確認する必要があります。

また、新しい robots.txt ファイルをテストしてから、Google ウェブマスター ツールを使用して適用することもできます。基本的には、デプロイする前に実際に動作するかどうかを検索エンジンで確認できます。

robots.txt で何かをブロックしたり、ページに noindex を追加したりすることに関しては、検索エンジンが自分のサイトのそのセクションをまったくクロールしたくないことがわかっていない限り、ほとんどのシナリオで noindex を使用する傾向があります。

いくつかのトレードオフがあります。検索エンジンを完全にブロックすると、「クロール バジェット」の一部を節約できます。そのため、検索エンジンは他のページをクロールし、アクセスしてほしくないページで時間を「浪費」します。ただし、これらの URL は引き続き検索結果に表示されます。

これらのページへの検索参照トラフィックがまったく必要ない場合は、noindex ディレクティブを使用することをお勧めします。さらに、取引ページに頻繁にリンクする場合、noindex は検索結果からそれを削除するだけでなく、リンク値 / PageRank がそれらのページを通過し、それに応じて計算される可能性があります。それらがクロールされないようにブロックすると、それは一種のブラックホールになります。

于 2013-06-14T21:30:37.023 に答える