それはすべてSEOに影響を与えます。ファイル内の子ページを明示的に許可しない場合、サイトは検索エンジン (少なくともrobots.txt
従うもの) によってまったくクロールされません。robots.txt
検索エンジンからトラフィックを取得するにはrobots.txt
、コードを次のように設定する必要があります。
User-agent: *
allow: /Parent 1/Child A
allow: /Parent 2/Child A
allow: /Parent 3/Child A
allow: /Parent 1/Child B
allow: /Parent 2/Child B
allow: /Parent 3/Child B
allow: /Parent 1/Child C
allow: /Parent 2/Child C
allow: /Parent 3/Child C
User-agent: *
Disallow: /Parent 1
Disallow: /Parent 2
Disallow: /Parent 3
サイトは引き続きページをクロールし、それらを使用してページをランク付けしますが、検索結果で非インデックスに設定されたページをランク付けすることはありません. それらのページからリンクを受け取ったページをランク付けします。
基本的に、検索エンジンはすべてのページを調べて、ユーザーがスパムデックスを実行したり、サービス規約に違反したりしていないことを確認する必要があります。
Googleによると、次の理由から、これらの設定には注意する必要があります。
すべてのロボットがサイトのページをインデックスに登録しないようにするには、次のメタ タグを<head>
ページのセクションに配置します。
<meta name="robots" content="noindex">
ページに noindex メタ タグが表示されると、他のページがそのページにリンクしていても、Google はそのページを検索結果から完全に除外します。ただし、他の検索エンジンでは、このディレクティブの解釈が異なる場合があります。その結果、ページへのリンクが引き続き検索結果に表示される可能性があります。
その他の注意事項
基本的に、検索エンジンは、エンド ユーザーが探していたリンクをエンド ユーザーに提供したいと考えています。彼らは、ブラウザ、Cookie、分析ソフトウェア、およびコンテンツの関連性についてページからのプラグイン、リンク、紹介、リンクなどのさまざまなものを介してユーザーをフォローすることにより、これを確認します. コンテンツにキーワードを含むページをインデックスに配置すると、それらのキーワードがユーザーを探しているページに誘導しない場合、ページが検索に関連していない場合、訪問者が「直帰」するリスクがあります。それらが直帰すると、検索エンジン (主に Google) はそのページに関連性があるとは判断せず、そのページ (そしてその後サイト) のランクを下げます。