ruby-on-rails-3 - robots.txt を使用して、検索スパイダーが Rails 3 のネストされたリソースにアクセスできないようにする

Question

Google や Yahoo などが私の /products/ID/purchase ページにアクセスするのを防ごうとしていますが、その方法がわかりません。

現在、次の方法でサインインをブロックしています。

User-agent: *
Disallow: /sign_in

次のようなことはできますか？

User-agent: *
Disallow: /products/*/purchase

または、次のようにする必要があります。

User-agent: *
Disallow: /purchase

score 2 · Accepted Answer

ブロックしたいと思います/products/ID/purchaseが、許可し/products/IDます。

最後の提案では、「購入」で始まるページのみをブロックします。

User-agent: *
Disallow: /purchase

だから、これはあなたが望むものではありません。

2番目の提案が必要です。

User-agent: *
Disallow: /products/*/purchase

これにより、で始まり、/products/任意の文字が続き、その後に。が続くすべてのURLがブロックされ/purchaseます。

注：ワイルドカードを使用し*ます。元のrobots.txtの「仕様」では、これは特別な意味を持つ文字ではありません。ただし、一部の検索エンジンは仕様を拡張し、一種のワイルドカードとして使用しています。したがって、Googleや他のいくつかの検索エンジンで機能するはずですが、他のすべてのクローラー/ボットで機能することは間違いありません。

したがって、robots.txtは次のようになります。

User-agent: *
Disallow: /sign_in
Disallow: /products/*/purchase

また、一部の検索エンジン（Googleを含む）は、robots.txtでブロックされていても、検索結果に（タイトル/スニペットなしで）URLを表示する場合があることに注意してください。これは、クロールが許可されているページでブロックされたページへのリンクを見つけた場合に当てはまる可能性があります。これを防ぐにはnoindex、ドキュメントを作成する必要があります。

score 0 · Accepted Answer

Googleによると、 Disallow: /products/*/purchase動作するはずです。しかし、robotstxt.org によると、これは機能しません。

ruby-on-rails-3 - robots.txt を使用して、検索スパイダーが Rails 3 のネストされたリソースにアクセスできないようにする

2 に答える 2

Related

Reference