大量のページ セットの Google のキャッシュ コピーが現在どの程度のものかを知りたいです。する必要があると思います
- ログで IP を調べます。
- ユーザーエージェント「googlebot」を確認してから、
- 各ページと最後にアクセスした日時を示すリストをエクスポートします。
これは、毎週実行される cron ジョブである可能性があると思います。これが正しい場合、スクリプトはどのように記述しますか? これが間違っている場合、より良い方法は何でしょうか?
Google は、 Google SiteMapsを介してこの情報を既に提供しています。私は過去 3 年間それを使用しています - うまくいきます。
サイトを SiteMaps に追加し、生成されたサイトの SiteMap XML (これを無料で提供している Web サイトの場合は Google) を Web サーバーに置き、後は Google に任せます。あなたが望むものを与えるCrawl Statsと呼ばれるSiteMapsのセクションがあります.
サイトの Google のビューを取得し、問題を診断します
Google がサイトをクロールしてインデックスに登録する方法を確認し、サイトへのアクセスで発生している特定の問題について学びます。
リンクとクエリ トラフィックを発見する
新しいリンク レポート ツールを使用して、サイトへの内部および外部リンクに関する包括的なデータを表示、分類、およびダウンロードします。どの Google 検索クエリがサイトへのトラフィックを促進しているかを調べ、ユーザーがどのようにしてサイトにたどり着いたかを正確に把握します。
サイトに関する情報を共有する
サイトマップを使用してページについて教えてください。どのサイトが最も重要で、どのくらいの頻度で変更されますか。また、インデックスに登録する URL をどのように表示するかをお知らせください。
これは必須ではありません。Google に対してサービス コールを実行して、キャッシュされたページを検索できます。つまり、時間と日付を含むcache:stackoverflow.comを検索できます。これをより直接的に行うための API 呼び出しがあったとしても、私は驚かないでしょう (更新: Google Search API )。
Last Googlebot Access は、mypagerank.net や Google ツールバーなどの Web サイトから無料で見つけることもできます。