22

http://example.comにサイトがあるとします。ボットにホームページを表示させたいのですが、スパイダーには意味がないため、他のページはブロックする必要があります。言い換えると

http://example.comhttp://example.com/は許可する必要がありますが、 http://example.com/anythinghttp://example.com/someendpoint.aspxはブロックする必要があります。

さらに、特定のクエリ文字列がホームページにパススルーできるようにできれば素晴らしいと思います: http ://example.com?okparam=true

しかし、 http://example.com?anythingbutokparam=trueではありません

4

5 に答える 5

52

したがって、いくつかの調査の後、ここに私が見つけたものがあります-主要な検索プロバイダーであるgoogleyahoo 、および msn (ここでバリデーターを見つけることができます) で受け入れられるソリューション:

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

トリックは、$ を使用して URL の終わりをマークすることです。

于 2008-09-04T20:34:05.150 に答える
1

Google の Webmaster Tools のレポートでは、常に許可よりも許可を拒否するほうが優先されるため、robots.txtファイルでこれを行う簡単な方法はありません。

noindex,nofollow METAホームページ以外のすべてのページの HTML にタグを配置することで、これを実現できます。

于 2008-09-04T14:12:47.920 に答える
0

基本的なrobots.txt:

Disallow: /subdir/

「ルート以外のすべて」という式を作成できるとは思いません。すべてのサブディレクトリに入力する必要があります。

robots.txtからもクエリ文字列の制限はできません。バックグラウンドコード(処理部分)で、またはサーバーの書き換えルールを使用して実行する必要があります。

于 2008-09-04T09:58:27.487 に答える
0
Disallow: *
Allow: index.ext

私が正しく覚えていれば、2番目の句が最初の句を上書きするはずです。

于 2008-09-04T10:27:43.593 に答える
0

私の知る限り、すべてのクローラーが Allow タグをサポートしているわけではありません。考えられる解決策の 1 つは、ホームページ以外のすべてを別のフォルダーに入れ、そのフォルダーを許可しないことです。

于 2008-09-04T14:18:33.400 に答える