web-crawler - サイトのデフォルトページのみを許可するrobot.txtを設定する方法

Question

http://example.comにサイトがあるとします。ボットにホームページを表示させたいのですが、スパイダーには意味がないため、他のページはブロックする必要があります。言い換えると

さらに、特定のクエリ文字列がホームページにパススルーできるようにできれば素晴らしいと思います： http ://example.com?okparam=true

score 52 · Accepted Answer

したがって、いくつかの調査の後、ここに私が見つけたものがあります-主要な検索プロバイダーであるgoogle、yahoo 、および msn (ここでバリデーターを見つけることができます) で受け入れられるソリューション:

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

トリックは、$ を使用して URL の終わりをマークすることです。

score 1 · Accepted Answer

Google の Webmaster Tools のレポートでは、常に許可よりも許可を拒否するほうが優先されるため、robots.txtファイルでこれを行う簡単な方法はありません。

noindex,nofollow METAホームページ以外のすべてのページの HTML にタグを配置することで、これを実現できます。

score 0 · Accepted Answer

基本的なrobots.txt：

Disallow: /subdir/

「ルート以外のすべて」という式を作成できるとは思いません。すべてのサブディレクトリに入力する必要があります。

robots.txtからもクエリ文字列の制限はできません。バックグラウンドコード（処理部分）で、またはサーバーの書き換えルールを使用して実行する必要があります。

score 0 · Accepted Answer

Disallow: *
Allow: index.ext

私が正しく覚えていれば、2番目の句が最初の句を上書きするはずです。

score 0 · Accepted Answer

私の知る限り、すべてのクローラーが Allow タグをサポートしているわけではありません。考えられる解決策の 1 つは、ホームページ以外のすべてを別のフォルダーに入れ、そのフォルダーを許可しないことです。

5 に答える 5