Robots.txtの次のコードは何をするのか疑問に思っています。
User-agent: *
Disallow: /*?
何か案は?
は、元の robots.txt 仕様*
のワイルドカード文字ではないことに注意してください。したがって、さまざまな robots.txt 拡張子をサポートしないパーサーは、 を文字そのものとして解釈します。*
これらのパーサーの場合、ルールは次のように解釈されます:「すべてのボットは、で始まる URL をクロールしないでください*?
。
たとえば、次の URL はブロックされます。
example.com/*?
example.com/*?.html
example.com/*?foobar
これらの URL はブロックされませんが:
example.com/foo*?
example.com/foo*?.html
example.com/foo*?foobar
この行は、このホスト上Disallow: /*?
の を含む URL をフェッチしないようにロボットに指示します。?
これは、 Googlebot のみがサポートする公式標準の拡張機能のようです。
これは、「すべての検索エンジンに対して、アドレス バーに疑問符を含むページのクロールを禁止する」という意味です。クエスチョン マークはクエリ パラメータとスクリプト名を区切るために使用されるため、基本的に動的コンテンツのインデックス作成がブロックされます。たとえばindex.php
、クロールされますが、クロールはindex.php?page=main
許可されません。
一般に、Robots.txt は、検索エンジンが Web サイトの一部をクロールするのをブロック/許可するために使用されます。User-agent、Allow、および Disallow の 3 つのディレクティブを含めることができます。ユーザー エージェントとは、検索エンジンを意味します。
User-agent: *
はすべての検索エンジンを意味しますが、許可しない特定の検索エンジンを具体的に指定することもできます。たとえば、Google によるウェブサイトのインデックス登録をブロックするには、robots.txt に次のように記述します。
User-agent: Goolge-bot
robots.txt の検索エンジンのリストは、こちらで確認できます。
[許可] と [禁止] には、クロールが許可されている/許可されていないフォルダーまたはファイルがそれぞれ一覧表示されます。正規表現構文を使用します。
Disallow: /
「私のウェブサイトでは何もクロールしない」という意味です。次のように、禁止と許可を組み合わせることができます。
User-agent: *
Allow: /*?
Disallow: *.jpg
基本的には、「動的リンク (疑問符を含むページ) のクロールは許可するが、JPG 画像リンクのクロールは許可しない」という意味です。Google の robots.txt の詳細な説明を次に示します。