私はクライアントのために再設計を行っています。新しいサイトでは、Google カスタム検索 (CSE) を検索エンジンとして使用したいと考えています。私は開発中ですが、新しいサイトを Google のインデックスに登録させることはできません。これは、Google のインデックス内で重複や未完成のページが飛び交う恐ろしい混乱になるからです。
では、ローンチ前に開発サイトで Google CSE からの検索結果をテストして絞り込むにはどうすればよいでしょうか?
ありがとう、ダニエル
私はクライアントのために再設計を行っています。新しいサイトでは、Google カスタム検索 (CSE) を検索エンジンとして使用したいと考えています。私は開発中ですが、新しいサイトを Google のインデックスに登録させることはできません。これは、Google のインデックス内で重複や未完成のページが飛び交う恐ろしい混乱になるからです。
では、ローンチ前に開発サイトで Google CSE からの検索結果をテストして絞り込むにはどうすればよいでしょうか?
ありがとう、ダニエル
2016 年 11 月現在、これはまだ不可能です。これは質問が出されてから何年も経っていることに気づきましたが、私はこれを達成しようと努めてきました. これは、Google サポートへの問い合わせから得た (残念な) 回答です。
Google Site Search は、次の URL のみを結果として返します。
- 検索設定にサイトに追加され、
- 索引付き
GSS は Google のインフラストラクチャでホストされており、Google.com と同じテクノロジを使用していることをお知らせします。ページを GSS に内部的にインデックス登録することはできませんが、Google のメイン インデックスには登録できません。
GSS は、公開されていてインターネット経由でアクセスできるドキュメントのみをインデックス化およびクロールできます。
GSS と Google.com は、同じクローラーと同じインデックス サーバーを使用しています。そのため、google.com へのアクセスをブロックしている場合、ページはインデックスに登録されず、GSS の結果にも表示されません。
ロボットを使用することで、一部のページのインデックス作成を回避できます
Web サイトの所有者は、/robots.txt ファイルを使用して、Web ロボットにサイトに関する指示を与えます。これはロボット排除プロトコルと呼ばれます。
ロボットはhttp://www.example.com/welcome.htmlなどの Web サイトの URL にアクセスしようとし ます。その前に、まずhttp://www.example.com/robots.txtをチェックし、以下を見つけます。
User-agent: *
Disallow: /
「User-agent: *」は、このセクションがすべてのロボットに適用されることを意味します。「Disallow: /」は、サイトのどのページにもアクセスしてはならないことをロボットに伝えます。
ドキュメントを見ると、robots.txt について何も見つからないため、それが尊重されているかどうかはわかりません。しかし、ドキュメントを見ると、手動で削除するか、有効期限を設定できると書かれていますsitemap.xml