1

これがこれを処理するための最良の方法であるかどうかさえわかりませんが、私は自分の書き直しで一時的な間違いを犯し、Google(おそらく他の人)がそれを拾い上げました。

基本的に、私はさまざまな要因に基づいてURLを生成しています。その1つは、自動的に生成される記事のIDです。次に、これらは正しい場所にリダイレクトされます。

私は最初に次のようなものを誤って設定しました:

/ 2343 / news / blahblahblah

/ 7645 / reviews / blahblahblah

等。

これは多くの理由で問題でした。主な理由は、重複があり、適切な場所とやだやだを指していなかったということです。そして私は今それらをこれに修正しました:

/ news / 2343 / blahblahblah

/ reviews / 7645 / blahblahblah

等。

そして、それはすべて良いことです。しかし、私は最初のパターンに該当するものはすべてブロックしたいと思います。言い換えれば、次のようになります。

** =任意の数値パターン

/ * * /anythingelsehere

そのため、Google(および間違ったものをインデックスに登録した可能性のある他の人)は、すべてが台無しになっていて、もう存在しないこれらのURLを探すのをやめます。これは可能ですか?robots.txtを介してこれを行う必要がありますか?

4

2 に答える 2

1

質問への回答: はい、数字で始まるすべての URL をブロックできます。

User-agent: *
Disallow: /0
Disallow: /1
Disallow: /2
Disallow: /3
Disallow: /4
Disallow: /5
Disallow: /6
Disallow: /7
Disallow: /8
Disallow: /9

次のような URL をブロックします。

  • example.com/1
  • example.com/2.html
  • example.com/3/foo
  • example.com/4you
  • example.com/52347612

これらの URL は引き続き許可されます。

  • example.com/foo/1
  • example.com/foo2.html
  • example.com/bar/3/foo
  • example.com/only4you
于 2012-11-14T13:53:00.803 に答える
1

そのために robots.txt を設定する必要はありません。それらの URL に対して 404 エラーを返すだけで、Google や他の検索エンジンは最終的にそれらをドロップします。

Google には、URL のインデックスを解除するために使用できるウェブマスター ツールもあります。他のホストにも同様のものがあると確信しています。

于 2012-11-13T04:03:55.937 に答える