html - 「％2C」（カンマ）を含むリンクをrobots.txtでインデックスに登録することをGoogleに禁止します

Question

disallow誰かが私のファイルにルールを追加するのを手伝ってもらえますか？それは、コンマ（、）のrobots.txtを含むリンクをクローラーがインデックスに登録するのを停止します。%2CHTML URL encoding

robots.txtファイルにワイルドカード文字が存在する場合、私が探しているのはワイルドカード文字だと思います。

これまでのところ私はこれを持っています：

Disallow: %2C

しかし、それが機能しているのを見ることができないようです。

助言がありますか？乾杯

score 4 · Accepted Answer

検索エンジンに対してrobots.txtをテストする場合の最良の方法は、robots.txtが提供するツールを利用することです。Googleウェブマスターツールの「ヘルス>ブロックされたURL」の下にrobots.txtテスターがあります。使用する場合

User-agent: *
Disallow: *,*

これにより、 http：//example.com/url%2Cpath/へのリクエストがすべてブロックされます。私は試しDisallow: *%2C*ましたが、どうやらそれはGooglebotがHTMLエスケープパスをクロールするのをブロックしません。私の推測では、Googlebotはキューイングプロセスでそれをエンコードします。

ビングに関しては、彼らは明らかに彼らのrobots.txt検証ツールを削除しました。したがって、実際にテストする唯一の確実な方法は、robots.txtをテストサイトにデプロイし、Bing WebmasterToolsを使用して「、」を含むページをフェッチすることです。その時点で、robots.txtによってブロックされているかどうかがわかります。

robots.txtを使用する場合は、検索エンジンが検索結果にURLを表示することを妨げないことを忘れないでください。URLをクロールできないようにするだけです。検索結果にこれらのタイプのURLを表示したくないが、ページをクロールしてもかまわない場合（つまり、robots.txtでこれらのURLをブロックできない場合）、メタタグまたはx-robotsを追加できます。 -httpヘッダーに値NOINDEXのタグを付けて、検索結果に追加されないようにします。

「nofollow」標準の使用に関する他のコメントの1つについて。Nofollowは、検索エンジンがこれらのURLをクロールするのを実際に妨げるわけではありません。それは、目的地へのそのリンクの承認を否定する方法としてより認識されています。GoogleとBingは、スポンサーリンクまたは信頼できないUGCリンクを示すためにnofollowを使用することを提案しています。

html - 「％2C」（カンマ）を含むリンクをrobots.txtでインデックスに登録することをGoogleに禁止します

1 に答える 1

Related

Reference