1

Google がクロールしたページの数について「二重」の質問があります。おそらく、重複コンテンツの可能性との関連性 (またはそうでないこと) と SEO への影響です。

私のページ数と Google によってクロールされたページに関する事実

2か月前に新しいウェブサイトを立ち上げました。現在は 150 ページ近くあります (毎日増えています)。とにかく、これは私のサイトマップのページ数です。

Google ウェブマスターの「Crawl stats」を見ると、Google が毎日クロールするページの数がはるかに多いことがわかります (下の画像を参照)。Google は 1 日に最大 903 ページをクロールしました

サーバーが少しビジーになるだけでなく (1 日 903 ページで 5.6 MB のダウンロード)、コンテンツが重複するのではないかと心配です。

Google (site:mysite.com) で確認したところ、1290 ページが返されました (ただし、[省略された結果を含めて検索を繰り返す] をクリックしない限り、191 ページしか表示されません。191 ページがサイトマップにあるとします。 (40ページ程度の重複コンテンツの問題があると思いますが、そのためにウェブサイトを更新するだけです)。

robots.txt に関する事実

robots.txt ファイルを使用して、すべてのクロール エンジンがパラメーター (以下のロボットを参照) と「タグ」を含むページにアクセスできないようにします。

User-Agent: *
Disallow: /administrator
Disallow: *?s
Disallow: *?r
Disallow: *?c
Disallow: *?viewmode
Disallow: */tags/*
Disallow: *?page=1
Disallow: */user/*

最も重要なのはタグです。それらは次のように私のURLにあります:

www.mysite.com/tags/Advertising/writing

robots.txt によってブロックされています (Google ウェブマスターに確認しました) が、Google 検索にはまだ存在しています (ただし、[省略された結果を含めて検索を繰り返す] をクリックする必要があります)。

これらのページは重複したコンテンツであるためクロールされたくありません (キーワードによる検索の一種です)。そのため、robots.txt に入れています。

最後に、私の質問は次のとおりです。

robots.txt でブロックしたページを Google がクロールするのはなぜですか?

ブロックしたページが Google のインデックスに登録されるのはなぜですか? それらのページは、Google によって重複コンテンツと見なされますか? はいの場合、SEO に悪いと思います。

編集: Google にインデックスされたページを削除する方法を尋ねているわけではありません (答えは既にわかっています)。

4

1 に答える 1

1

robots.txtでブロックしたページをGoogleがクロールするのはなぜですか?なぜグーグルは私がブロックしたページをインデックスに登録しているのですか?

あなたがそれをブロックする前に、彼らはそれを這っていたかもしれません。更新されたrobots.txtファイルが読み取られるまで待ってから、それに応じてインデックスを更新する必要があります。これには決まったスケジュールはありませんが、通常、新しいWebサイトの場合は長くなります。

それらのページは重複コンテンツと見なされますか?

教えてください。重複コンテンツとは、2つのページの2つ以上のページに同一またはほぼ同一のコンテンツがある場合です。それはあなたのサイトで起こっていますか?

重複するコンテンツをブロックすることは、その問題を解決する方法ではありません。正規URLを使用する必要があります。ページをブロックするということは、SEOの取り組みを損なうWebサイトの「ブラックホール」にリンクしていることを意味します。正規URLはこれを防ぎ、正規URLに関連する用語と、重複するすべてのページへのすべてのリンクの完全なクレジットを提供します

于 2011-12-09T03:46:37.197 に答える