0

website.com/path/には、robots.txtファイルがあります。このファイルには次のものが含まれています。

User-agent: *
Disallow: /

私はそれをwebsite.comに適用したくありませんが、パス自体にのみ適用します。

問題は次のとおりです。/は実際には./を意味しますか、それともWebルートフォルダを参照しますか?

理由:robots.txt内のフォルダーのリストを表示したくありませんが、クローラーが外部リンクからプライベートにアクセスした場合、インデックスを作成しないでください。

4

3 に答える 3

2

robots.txtはホストルートに配置する必要があります。robots.txtをに含めることはできませんexample.com/path/robots.txt

したがって、robots.txtを1レベル上に移動する必要がありますexample.com/robots.txtDisallow: /そして今、このホスト上のすべてをブロックしていることは明らかです。

「プライベート」URLに関する情報を提供したくない場合は、それらのURLの先頭のみを指定できます(可能な場合)。

User-agent: *
Disallow: /p

これにより、次のようにで始まる すべてのURLがブロックされます。example.com/p

  • example.com/p
  • example.com/p.html
  • example.com/path
  • example.com/path/
  • example.com/path/foobar
  • example.com/p12asokd1

これが不可能な場合(たとえば、パブリックURLがそのような文字で始まる場合など)、robots meta代わりに要素を使用できます。

URLをブロックするためにを使用する場合、検索エンジンは引き続きURLにインデックスを付け、検索結果でそのURLにリンクする可能性があることに注意してrobots.txtください(たとえば、誰かがあなたのプライベートURLにリンクする場合)。したがって、これらのURLはもはや「プライベート」ではありません。この方法を使用する場合meta、(丁寧な)検索エンジンはURLのインデックスを作成することすらしないので、それはあなたにとって有利です。

于 2013-03-25T11:00:47.680 に答える
1

Disallow: /*/パスとスラッシュがあるものはすべてブロックする、を試してみてください。それはブロックしますが、ルートで/foo/bar.htmlはブロックしません。/index.html

残念ながら、ブロックされませんが/foo、Webサーバーによっては、リクエスト/fooがにリダイレクトされ/foo/、ブロックされる場合があります。

于 2013-03-24T13:56:14.420 に答える
0

残念ながら、ルートフォルダにも適用されます。

実際、すべてのrobots.txtはまずルートフォルダに適用され、その後で特定のフォルダに関する詳細を指定できます。

robotstxt.orgから:

ロボットがURLの「/robots.txt」ファイルを探すとき、URLからパスコンポーネント(最初の単一のスラッシュからすべて)を取り除き、その場所に「/robots.txt」を配置します。

たとえば、「http://www.example.com/shop/index.html 」の場合、「/ shop / index.html」を削除して「/robots.txt」に置き換え、最終的に次のようになります。 「http://www.example.com/robots.txt」。

于 2013-03-24T11:33:32.243 に答える