Google の検索エンジン用にサイトを最適化する作業を行っていますが、最近、"site:www.joemajewski.com" クエリを実行すると、まったくインデックスに登録されるべきではないページの結果が得られることに気付きました。
たとえば、このページを見てみましょう: http://www.joemajewski.com/wow/profile.php?id=3
私は独自の CMS を作成しました。これは、ユーザー ID #3 の統計情報の内訳です。Google によってインデックス化されていることに気付きましたが、そうすべきではありません。Google の結果がサイトのコンテンツに正確に反映されるまでに時間がかかることは承知していますが、これは 6 か月近く不適切にインデックス登録されています。
私が取った予防策は次のとおりです。
私のrobots.txt
ファイルには次のような行があります:
Disallow: /wow/profile.php*
Google ウェブマスター ツールを使用して URL を実行すると、disallow コマンドを実際に正しく作成したことが示されます。ただし、クロールされていないページがリンクされている場合は、検索結果に表示される可能性があると述べています. ということで、もう一つ対策を練りました。
ソース コードには、次のメタ データを含めました。
<meta name="robots" content="noindex,follow" />
follow
これは、PageRank などを計算するときにページを使用することを意味し、検索結果にそのページを表示しないnoindex
ように Google に指示することを想定しています。
このページ profile.php は、$_GET['id'] を取得し、対応する登録ユーザーを見つけるために使用されます。そのユーザーに関する情報が少し表示されますが、検索結果に表示するほどの関連性はありません。そのため、Google によるインデックス登録を停止しようとしています。
Google がインデックスに登録している、削除してほしいページはこれだけではありません。私も WordPress ブログを持っていますが、削除したいカテゴリ ページ、タグ ページ、およびアーカイブ ページが多数あり、それらを削除するために同じ手順を実行しています。
Google の検索結果からページを削除する方法と、インデックスに登録したくないページの種類を判断するのに役立ついくつかの基準を誰かが説明できますか? 私の WordPress ブログに関して言えば、私が本当にインデックスに登録したい唯一のページは私の記事です。Googleからの運がほとんどなく、ブロックしようとした他のすべて。
WordPressのタグやカテゴリのページなど、新しいコンテンツや関連するコンテンツを提供しないページをインデックスに登録するのが悪い理由を誰かが説明できますか.
ありがとう!