0

次のような URL を含む 1000 ページを超える joomla Web サイトがあります。

www.mysite.com/example.html?start=10  
www.mysite.com/example.html?start=20  
www.mysite.com/example.html?limitstart=0  

この URL はすべて Google によってインデックス化されています。Google ウェブマスター ツールには、これらのページネーションによって引き起こされた重複したメタ記述の膨大なリストがあります。

robots.txt を使用してそれらをブロックするのは難しくないことを知っているので、助けが必要です。

4

2 に答える 2

1

robot.txtを作成し、Disallowプロパティを使用できます。

たとえば、次の3つのURLについて言及したので:

www.mysite.com/example.html?start=10  
www.mysite.com/example.html?start=20  
www.mysite.com/example.html?limitstart=0

これを使用する必要があります:

Disallow: /?start=
Disallow: /?limitstart=

Disallow:を使用する必要があります。その後に、/と、禁止するものに含まれるパターンが続きます。特定のファイルまたはフォルダーをターゲットにすることができます。

User-agentプロパティを使用して、ファイルまたはフォルダーを非表示にするボットを指定することもできます。

User-agent: *
Disallow: /?start=
Disallow: /?limitstart=

上記のコードは、すべてのボットまたはクロールエンジンで機能します。

User-agent: googlebot
Disallow: /?start=
Disallow: /?limitstart=

このコードは、たとえばGoogleでのみ機能します。

参考までに、 www.robotstxt.orgで見つけた資料を読むことができます。また、ウィキペディアには十分に優れたページがあります。http://en.wikipedia.org/wiki/Robots.txt

別の詳細なリファレンスはここにあります:https ://developers.google.com/webmasters/control-crawl-index/docs/robots_txt

于 2012-12-27T21:01:06.723 に答える