Google がクロールしたページの数について「二重」の質問があります。おそらく、重複コンテンツの可能性との関連性 (またはそうでないこと) と SEO への影響です。
私のページ数と Google によってクロールされたページに関する事実
2か月前に新しいウェブサイトを立ち上げました。現在は 150 ページ近くあります (毎日増えています)。とにかく、これは私のサイトマップのページ数です。
Google ウェブマスターの「Crawl stats」を見ると、Google が毎日クロールするページの数がはるかに多いことがわかります (下の画像を参照)。
サーバーが少しビジーになるだけでなく (1 日 903 ページで 5.6 MB のダウンロード)、コンテンツが重複するのではないかと心配です。
Google (site:mysite.com) で確認したところ、1290 ページが返されました (ただし、[省略された結果を含めて検索を繰り返す] をクリックしない限り、191 ページしか表示されません。191 ページがサイトマップにあるとします。 (40ページ程度の重複コンテンツの問題があると思いますが、そのためにウェブサイトを更新するだけです)。
robots.txt に関する事実
robots.txt ファイルを使用して、すべてのクロール エンジンがパラメーター (以下のロボットを参照) と「タグ」を含むページにアクセスできないようにします。
User-Agent: *
Disallow: /administrator
Disallow: *?s
Disallow: *?r
Disallow: *?c
Disallow: *?viewmode
Disallow: */tags/*
Disallow: *?page=1
Disallow: */user/*
最も重要なのはタグです。それらは次のように私のURLにあります:
www.mysite.com/tags/Advertising/writing
robots.txt によってブロックされています (Google ウェブマスターに確認しました) が、Google 検索にはまだ存在しています (ただし、[省略された結果を含めて検索を繰り返す] をクリックする必要があります)。
これらのページは重複したコンテンツであるためクロールされたくありません (キーワードによる検索の一種です)。そのため、robots.txt に入れています。
最後に、私の質問は次のとおりです。
robots.txt でブロックしたページを Google がクロールするのはなぜですか?
ブロックしたページが Google のインデックスに登録されるのはなぜですか? それらのページは、Google によって重複コンテンツと見なされますか? はいの場合、SEO に悪いと思います。
編集: Google にインデックスされたページを削除する方法を尋ねているわけではありません (答えは既にわかっています)。