1

robots.txt の問題で行き詰まっています。

http://example.com/forbiddenを禁止し、 http://example.comの他のサブディレクトリを許可したい。通常、これの構文は次のようになります。

User-agent: *
Disallow: /forbidden/

ただし、悪意のあるロボットに /forbidden/ ディレクトリが存在することをまったく知られたくありません。ページ上には何もリンクされていません。そこにあることを知っている人を除いて、すべての人に完全に隠されている必要があります。そもそも。

これを達成する方法はありますか?サブディレクトリ自体に robots.txt を配置することを最初に考えましたが、これは効果がありません。私のサブディレクトリが良性または悪意のあるロボットによってインデックス付けされるのを望まない場合、robots.txt にリストするか、リストしたりリンクしたりしない方が安全ですか?

4

2 に答える 2

2

リンクしなくても、クローラーは URL を見つけることがあります。

  • 他の誰かがそれにリンクする可能性があります
  • 一部のブラウザー ツールバーは、アクセスしたすべての URL を取得して検索エンジンに送信します。
  • あなたの URL は、リンクされたページの (パブリック) リファラー ログに表示される可能性があります

したがって、それらをブロックする必要があります。2 つのバリアントがあります (アクセス制御を使用したくない場合)。

  • robots.txt
  • meta-robots

(もちろん、どちらの亜種も丁寧なボットに対してのみ機能します)

完全なフォルダー名を使用せずに robots.txt を使用できます。

User-agent: *
Disallow: /fo

これにより、 で始まるすべてのURLがブロックされますfo。もちろん、インデックスを作成したい他の URL と一致しない文字列を見つける必要があります。

ただし、クローラーが何らかの方法でブロックされたページを見つけた場合 (上記を参照)、引き続きその URL をインデックスに追加することがあります。robots.txt は、ページ コンテンツのクロール/インデックス作成を禁止するだけで、URL の使用/追加/リンクは禁止されていません。

ただし、meta-robotsを使用すると、URL のインデックス作成を禁止することもできます。ブロックするページに次の要素を追加headします。

<meta name="robots" content="noindex">

HTML 以外のファイルには、HTTP ヘッダーがありますX-Robots-Tag

于 2013-06-13T11:28:17.963 に答える