0

Google や Yahoo などが私の /products/ID/purchase ページにアクセスするのを防ごうとしていますが、その方法がわかりません。

現在、次の方法でサインインをブロックしています。

User-agent: *
Disallow: /sign_in

次のようなことはできますか?

User-agent: *
Disallow: /products/*/purchase

または、次のようにする必要があります。

User-agent: *
Disallow: /purchase
4

2 に答える 2

2

ブロックしたいと思います/products/ID/purchaseが、許可し/products/IDます。

最後の提案では、 「購入」で始まるページのみをブロックします。

User-agent: *
Disallow: /purchase

だから、これはあなたが望むものではありません。

2番目の提案が必要です。

User-agent: *
Disallow: /products/*/purchase

これにより、で始まり、/products/任意の文字が続き、その後に。が続くすべてのURLがブロックされ/purchaseます。

注:ワイルドカードを使用し*ます。元のrobots.txtの「仕様」では、これは特別な意味を持つ文字ではありません。ただし、一部の検索エンジンは仕様を拡張し、一種のワイルドカードとして使用しています。したがって、Googleや他のいくつかの検索エンジンで機能するはずですが、他のすべてのクローラー/ボットで機能することは間違いありません。

したがって、robots.txtは次のようになります。

User-agent: *
Disallow: /sign_in
Disallow: /products/*/purchase

また、一部の検索エンジン(Googleを含む)は、robots.txtでブロックされていても、検索結果に(タイトル/スニペットなしで)URLを表示する場合があることに注意してください。これは、クロールが許可されているページでブロックされたページへのリンクを見つけた場合に当てはまる可能性があります。これを防ぐにはnoindex、ドキュメントを作成する必要があります。

于 2012-11-01T14:37:17.973 に答える
0

Googleによると、 Disallow: /products/*/purchase動作するはずです。しかし、robotstxt.org によると、これは機能しません。

于 2012-10-31T11:23:17.867 に答える