7

この質問が何度も聞かれたことは知っていますが、もっと具体的にしたいと思います。

開発ドメインがあり、そのサイトをサブフォルダーに移動しました。から言いましょう:

http://www.example.com/

に:

http://www.example.com/backup

そのため、サブフォルダーが検索エンジンによってまったくインデックスに登録されないようにする必要があります。次のコンテンツを含むrobots.txtをサブフォルダーに配置しました(サブフォルダーに配置できますか、ルートのコンテンツを検索エンジンに表示するため、常にルートに配置する必要があります)。

User-agent: *
Disallow: /

たぶん私はそれを交換してルートに次のものを入れる必要があります:

User-agent: *
Disallow: /backup

もう1つは、特定のロボットがrobots.txtファイルを尊重しないことをどこかで読んだので、.htaccessファイルを/backupフォルダーに置くだけでうまくいくでしょうか。

Order deny,allow
Deny from all

何か案は?

4

1 に答える 1

13

これにより、そのディレクトリのインデックスが作成されなくなります。

User-agent: *
Disallow: /backup/

さらに、robots.txt ファイルはドメインのルートに配置する必要があるため、この場合、 http://example.com/robots.txtにアクセスしてブラウザでアクセスできる場所にファイルを配置します。

余談ですが、開発サイト用にhttp://dev.example.comのようなサブドメインを設定することを検討してください。そうすることで、開発環境を本番環境から完全に分離することができ、環境をより厳密に一致させることもできます。

たとえば、JavaScript ファイル、CSS、画像、またはその他のリソースへの絶対パスは、開発から本番まで同じように機能しない可能性があり、これが将来的にいくつかの問題を引き起こす可能性があります。

このファイルの構成方法の詳細については、robotstxt.orgサイトを参照してください。幸運を!

最後に、Google ウェブマスター ツールには、robots.txt ファイルによって何がブロックされているかを確認できるセクションがあります。

Google がクロールをブロックした URL を確認するには、ウェブマスター ツールの [ヘルス] セクションの [ブロックされた URL] ページにアクセスしてください。

このツールを使用することを強くお勧めします。robots.txt ファイルが正しく構成されていないと、Web サイトのパフォーマンスに大きな影響を与える可能性があります。

于 2012-05-26T10:43:20.950 に答える