0

Robots.txtの次のコードは何をするのか疑問に思っています。

User-agent: *
Disallow: /*?

何か案は?

4

3 に答える 3

1

は、元の robots.txt 仕様*のワイルドカード文字ではないことに注意してください。したがって、さまざまな robots.txt 拡張子をサポートしないパーサーは、 を文字そのものとして解釈します。*

これらのパーサーの場合、ルールは次のように解釈されます:「すべてのボットは、で始まる URL をクロールしないでください*?

たとえば、次の URL はブロックされます。

  • example.com/*?
  • example.com/*?.html
  • example.com/*?foobar

これらの URL はブロックされませんが:

  • example.com/foo*?
  • example.com/foo*?.html
  • example.com/foo*?foobar
于 2012-11-08T05:42:11.163 に答える
1

この行は、このホスト上Disallow: /*?の を含む URL をフェッチしないようにロボットに指示します。?

これは、 Googlebot のみがサポートする公式標準の拡張機能のようです。

于 2012-11-07T08:27:08.340 に答える
0

これは、「すべての検索エンジンに対して、アドレス バーに疑問符を含むページのクロールを禁止する」という意味です。クエスチョン マークはクエリ パラメータとスクリプト名を区切るために使用されるため、基本的に動的コンテンツのインデックス作成がブロックされます。たとえばindex.php、クロールされますが、クロールはindex.php?page=main許可されません。

一般に、Robots.txt は、検索エンジンが Web サイトの一部をクロールするのをブロック/許可するために使用されます。User-agent、Allow、および Disallow の 3 つのディレクティブを含めることができます。ユーザー エージェントとは、検索エンジンを意味します。

User-agent: *

はすべての検索エンジンを意味しますが、許可しない特定の検索エンジンを具体的に指定することもできます。たとえば、Google によるウェブサイトのインデックス登録をブロックするには、robots.txt に次のように記述します。

User-agent: Goolge-bot

robots.txt の検索エンジンのリストは、こちらで確認できます。

[許可] と [禁止] には、クロールが許可されている/許可されていないフォルダーまたはファイルがそれぞれ一覧表示されます。正規表現構文を使用します。

Disallow: /

「私のウェブサイトでは何もクロールしない」という意味です。次のように、禁止と許可を組み合わせることができます。

User-agent: *
Allow: /*?
Disallow: *.jpg

基本的には、「動的リンク (疑問符を含むページ) のクロールは許可するが、JPG 画像リンクのクロールは許可しない」という意味です。Google の robots.txt の詳細な説明を次に示します。

于 2012-11-07T08:39:13.000 に答える