44

サイトの 1 ページだけをクロールし、他のページはクロールしないようにしたい。

また、上記の回答と異なる場合は、Web サイトのルート (インデックス) 以外のすべてを禁止するための構文も知りたいです。

# robots.txt for http://example.com/

User-agent: *
Disallow: /style-guide
Disallow: /splash
Disallow: /etc
Disallow: /etc
Disallow: /etc
Disallow: /etc
Disallow: /etc

それとも私はこのようにすることができますか?

# robots.txt for http://example.com/

User-agent: *
Disallow: /
Allow: /under-construction

また、これは WordPress のインストールであるため、たとえば「建設中」はフロント ページに設定されます。その場合、それはインデックスとして機能します。

必要なのはクロールすることだと思いますhttp://example.comが、他のページはありません。

# robots.txt for http://example.com/

User-agent: *
Disallow: /*

これは、ルートの後に何も許可しないことを意味しますか?

4

4 に答える 4

85

1 ページだけへのアクセスを許可する最も簡単な方法は次のとおりです。

User-agent: *
Allow: /under-construction
Disallow: /

オリジナルのrobots.txt 仕様では、クローラーは robots.txt を上から下に読み取り、最初に一致したルールを使用する必要があると規定されています。最初に置くとDisallow、多くのボットは、何もクロールできないと言っていると見なします。最初に置くことでAllow、ルールを上から下に適用する人は、そのページにアクセスできることがわかります。

式のルールは単純です。「スラッシュで始まるDisallow: /ものはすべて許可しない」という式です。つまり、サイト上のすべてを意味します。

YourDisallow: /*は Googlebot と Bingbot にとって同じことを意味しますが、ワイルドカードをサポートしていないボットは を見て/*、文字通りの を意味すると考える可能性があります*。そのため、クロールしても問題ないと判断でき/*foo/bar.htmlます。

をクロールしたいだけhttp://example.comで、他に何もしたくない場合は、次のことを試してください。

Allow: /$
Disallow: /

$、正規表現と同様に「文字列の終わり」を意味します。繰り返しますが、これは Google と Bing では機能しますが、ワイルドカードをサポートしていない他のクローラーでは機能しません。

于 2013-11-08T22:22:22.620 に答える
9

Google ウェブマスター ツールにログインしている場合は、左側のパネルから [クロール] に移動してから、[Fetch as Google] に移動します。ここでは、Google が各ページをどのようにクロールするかをテストできます。

ホームページ以外をブロックする場合:

User-agent: *
Allow: /$
Disallow: /

動作します。

于 2015-01-18T01:17:06.133 に答える
2

http://en.wikipedia.org/wiki/Robots.txt#Allow_directive

順序は、標準に従うロボットにとってのみ重要です。Google または Bing ボットの場合、順序は重要ではありません。

于 2014-01-27T09:49:13.583 に答える