robots.txt - robots.txt で 1 つを除くすべてのページを禁止するには? オーバーライドしてカスケードしますか?

Question

サイトの 1 ページだけをクロールし、他のページはクロールしないようにしたい。

また、上記の回答と異なる場合は、Web サイトのルート (インデックス) 以外のすべてを禁止するための構文も知りたいです。

# robots.txt for http://example.com/

User-agent: *
Disallow: /style-guide
Disallow: /splash
Disallow: /etc
Disallow: /etc
Disallow: /etc
Disallow: /etc
Disallow: /etc

それとも私はこのようにすることができますか？

# robots.txt for http://example.com/

User-agent: *
Disallow: /
Allow: /under-construction

また、これは WordPress のインストールであるため、たとえば「建設中」はフロントページに設定されます。その場合、それはインデックスとして機能します。

必要なのはクロールすることだと思いますhttp://example.comが、他のページはありません。

# robots.txt for http://example.com/

User-agent: *
Disallow: /*

これは、ルートの後に何も許可しないことを意味しますか?

score 85 · Accepted Answer

1 ページだけへのアクセスを許可する最も簡単な方法は次のとおりです。

User-agent: *
Allow: /under-construction
Disallow: /

オリジナルのrobots.txt 仕様では、クローラーは robots.txt を上から下に読み取り、最初に一致したルールを使用する必要があると規定されています。最初に置くとDisallow、多くのボットは、何もクロールできないと言っていると見なします。最初に置くことでAllow、ルールを上から下に適用する人は、そのページにアクセスできることがわかります。

式のルールは単純です。「スラッシュで始まるDisallow: /ものはすべて許可しない」という式です。つまり、サイト上のすべてを意味します。

YourDisallow: /*は Googlebot と Bingbot にとって同じことを意味しますが、ワイルドカードをサポートしていないボットはを見て/*、文字通りのを意味すると考える可能性があります*。そのため、クロールしても問題ないと判断でき/*foo/bar.htmlます。

をクロールしたいだけhttp://example.comで、他に何もしたくない場合は、次のことを試してください。

Allow: /$
Disallow: /

は$、正規表現と同様に「文字列の終わり」を意味します。繰り返しますが、これは Google と Bing では機能しますが、ワイルドカードをサポートしていない他のクローラーでは機能しません。

score 9 · Accepted Answer

Google ウェブマスターツールにログインしている場合は、左側のパネルから [クロール] に移動してから、[Fetch as Google] に移動します。ここでは、Google が各ページをどのようにクロールするかをテストできます。

ホームページ以外をブロックする場合：

User-agent: *
Allow: /$
Disallow: /

動作します。

score 2 · Accepted Answer

http://en.wikipedia.org/wiki/Robots.txt#Allow_directive

順序は、標準に従うロボットにとってのみ重要です。Google または Bing ボットの場合、順序は重要ではありません。

robots.txt - robots.txt で 1 つを除くすべてのページを禁止するには? オーバーライドしてカスケードしますか?

4 に答える 4

Related

Reference