検索エンジンに対してrobots.txtをテストする場合の最良の方法は、robots.txtが提供するツールを利用することです。Googleウェブマスターツールの「ヘルス>ブロックされたURL」の下にrobots.txtテスターがあります。使用する場合
User-agent: *
Disallow: *,*
これにより、 http://example.com/url%2Cpath/へのリクエストがすべてブロックされます。私は試しDisallow: *%2C*
ましたが、どうやらそれはGooglebotがHTMLエスケープパスをクロールするのをブロックしません。私の推測では、Googlebotはキューイングプロセスでそれをエンコードします。
ビングに関しては、彼らは明らかに彼らのrobots.txt検証ツールを削除しました。したがって、実際にテストする唯一の確実な方法は、robots.txtをテストサイトにデプロイし、Bing WebmasterToolsを使用して「、」を含むページをフェッチすることです。その時点で、robots.txtによってブロックされているかどうかがわかります。
robots.txtを使用する場合は、検索エンジンが検索結果にURLを表示することを妨げないことを忘れないでください。URLをクロールできないようにするだけです。検索結果にこれらのタイプのURLを表示したくないが、ページをクロールしてもかまわない場合(つまり、robots.txtでこれらのURLをブロックできない場合)、メタタグまたはx-robotsを追加できます。 -httpヘッダーに値NOINDEXのタグを付けて、検索結果に追加されないようにします。
「nofollow」標準の使用に関する他のコメントの1つについて。Nofollowは、検索エンジンがこれらのURLをクロールするのを実際に妨げるわけではありません。それは、目的地へのそのリンクの承認を否定する方法としてより認識されています。GoogleとBingは、スポンサーリンクまたは信頼できないUGCリンクを示すためにnofollowを使用することを提案しています。