search-engine - robots.txtのこのコマンドは何をしますか？

Question

Robots.txtの次のコードは何をするのか疑問に思っています。

User-agent: *
Disallow: /*?

何か案は？

score 1 · Accepted Answer

は、元の robots.txt 仕様*のワイルドカード文字ではないことに注意してください。したがって、さまざまな robots.txt 拡張子をサポートしないパーサーは、を文字そのものとして解釈します。*

これらのパーサーの場合、ルールは次のように解釈されます:「すべてのボットは、で始まる URL をクロールしないでください*?。

たとえば、次の URL はブロックされます。

example.com/*?
example.com/*?.html
example.com/*?foobar

これらの URL はブロックされませんが:

example.com/foo*?
example.com/foo*?.html
example.com/foo*?foobar

score 1 · Accepted Answer

この行は、このホスト上Disallow: /*?のを含む URL をフェッチしないようにロボットに指示します。?

これは、 Googlebot のみがサポートする公式標準の拡張機能のようです。

score 0 · Accepted Answer

これは、「すべての検索エンジンに対して、アドレスバーに疑問符を含むページのクロールを禁止する」という意味です。クエスチョンマークはクエリパラメータとスクリプト名を区切るために使用されるため、基本的に動的コンテンツのインデックス作成がブロックされます。たとえばindex.php、クロールされますが、クロールはindex.php?page=main許可されません。

一般に、Robots.txt は、検索エンジンが Web サイトの一部をクロールするのをブロック/許可するために使用されます。User-agent、Allow、および Disallow の 3 つのディレクティブを含めることができます。ユーザーエージェントとは、検索エンジンを意味します。

User-agent: *

はすべての検索エンジンを意味しますが、許可しない特定の検索エンジンを具体的に指定することもできます。たとえば、Google によるウェブサイトのインデックス登録をブロックするには、robots.txt に次のように記述します。

User-agent: Goolge-bot

robots.txt の検索エンジンのリストは、こちらで確認できます。

[許可] と [禁止] には、クロールが許可されている/許可されていないフォルダーまたはファイルがそれぞれ一覧表示されます。正規表現構文を使用します。

Disallow: /

「私のウェブサイトでは何もクロールしない」という意味です。次のように、禁止と許可を組み合わせることができます。

User-agent: *
Allow: /*?
Disallow: *.jpg

基本的には、「動的リンク (疑問符を含むページ) のクロールは許可するが、JPG 画像リンクのクロールは許可しない」という意味です。Google の robots.txt の詳細な説明を次に示します。

search-engine - robots.txtのこのコマンドは何をしますか？

3 に答える 3

Related

Reference