couchdb - Googleがcouchdb設計ドキュメントをインデックス化できないようにする

Question

couchdbに基づいて Web アプリケーションを作成しました。これはcloudant.comでホストされています(ありがとう、cloduant の皆さんは素晴らしいです!)。

私の問題は、グーグルで「epos ride」というキーワードを挿入すると、最初の結果が設計ドキュメントになることです...これは、Web アプリを検索している私の顧客にとってはまったく問題ありません!

私が理解している限り、次のことはできません。

read_protect 設計ドキュメント (ユーザーがアクセスできる必要がある基本的な情報が含まれています。http://guide.couchdb.org/draft/design.htmlを参照してください);
そのページから実際のインデックスページ ("/index.html" アペンドしかない) への "リダイレクト" を作成します。これは、まさにこの RESTful API を介して設計ドキュメントを取得するという考え方だからです。

だから私は唯一の方法は、設計文書をGoogleのインデックスに登録しないようにすることだと思います. それは何らかの方法で可能ですか？この問題を解決する他の解決策はありますか?

score 1 · Accepted Answer

Google やその他の検索エンジンに、Web プレゼンスのどの部分をインデックスに登録したくないかを伝えることができます。

アクセス可能なパブリック Web サイトのルートにファイルを配置するだけで、すべてのロボットがhttp://www.example.com/robots.txtrobots.txtでファイルを見つけることができます。ここで、www.example.com はドメインアドレスです。

これは単純なテキストファイルです。以下に、このファイルを使用して Web ロボットにコマンドを与える方法の例を示します。

この規格では、Web サイトのどの領域を処理またはスキャンしてはならないかをロボットに通知するために使用する命令形式を指定しています。

この例では、ワイルドカード * がすべてのロボットを指定しているため、すべてのロボットにすべてのファイルにアクセスできることを伝えています。

User-agent: *
Disallow:

この例では、特定の 1 つのファイルに近づかないようにすべてのロボットに指示します。

User-agent: *
Disallow: /directory/file.html

この例では、すべてのロボットに 3 つのディレクトリに入らないように指示しています。

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

1 に答える 1