1

大量のページ セットの Google のキャッシュ コピーが現在どの程度のものかを知りたいです。する必要があると思います

  1. ログで IP を調べます。
  2. ユーザーエージェント「googlebot」を確認してから、
  3. 各ページと最後にアクセスした日時を示すリストをエクスポートします。

これは、毎週実行される cron ジョブである可能性があると思います。これが正しい場合、スクリプトはどのように記述しますか? これが間違っている場合、より良い方法は何でしょうか?

4

3 に答える 3

3

Google は、 Google SiteMapsを介してこの情報を既に提供しています。私は過去 3 年間それを使用しています - うまくいきます。

サイトを SiteMaps に追加し、生成されたサイトの SiteMap XML (これを無料で提供している Web サイトの場合は Google) を Web サーバーに置き、後は Google に任せます。あなたが望むものを与えるCrawl Statsと呼ばれるSiteMapsのセクションがあります.

サイトの Google のビューを取得し、問題を診断します

Google がサイトをクロールしてインデックスに登録する方法を確認し、サイトへのアクセスで発生している特定の問題について学びます。

リンクとクエリ トラフィックを発見する

新しいリンク レポート ツールを使用して、サイトへの内部および外部リンクに関する包括的なデータを表示、分類、およびダウンロードします。どの Google 検索クエリがサイトへのトラフィックを促進しているかを調べ、ユーザーがどのようにしてサイトにたどり着いたかを正確に把握します。

サイトに関する情報を共有する

サイトマップを使用してページについて教えてください。どのサイトが最も重要で、どのくらいの頻度で変更されますか。また、インデックスに登録する URL をどのように表示するかをお知らせください。

于 2009-12-01T18:33:04.643 に答える
2

これは必須ではありません。Google に対してサービス コールを実行して、キャッシュされたページを検索できます。つまり、時間と日付を含むcache:stackoverflow.comを検索できます。これをより直接的に行うための API 呼び出しがあったとしても、私は驚かないでしょう (更新: Google Search API )。

于 2009-12-01T18:34:01.347 に答える
0

Last Googlebot Access は、mypagerank.net や Google ツールバーなどの Web サイトから無料で見つけることもできます。

于 2009-12-27T02:24:20.290 に答える