unix - Google が最後にクロールした方法を調べる

Question

大量のページセットの Google のキャッシュコピーが現在どの程度のものかを知りたいです。する必要があると思います

ログで IP を調べます。
ユーザーエージェント「googlebot」を確認してから、
各ページと最後にアクセスした日時を示すリストをエクスポートします。

これは、毎週実行される cron ジョブである可能性があると思います。これが正しい場合、スクリプトはどのように記述しますか? これが間違っている場合、より良い方法は何でしょうか?

score 3 · Accepted Answer

Google は、 Google SiteMapsを介してこの情報を既に提供しています。私は過去 3 年間それを使用しています - うまくいきます。

サイトを SiteMaps に追加し、生成されたサイトの SiteMap XML (これを無料で提供している Web サイトの場合は Google) を Web サーバーに置き、後は Google に任せます。あなたが望むものを与えるCrawl Statsと呼ばれるSiteMapsのセクションがあります.

サイトの Google のビューを取得し、問題を診断します

Google がサイトをクロールしてインデックスに登録する方法を確認し、サイトへのアクセスで発生している特定の問題について学びます。

リンクとクエリトラフィックを発見する

新しいリンクレポートツールを使用して、サイトへの内部および外部リンクに関する包括的なデータを表示、分類、およびダウンロードします。どの Google 検索クエリがサイトへのトラフィックを促進しているかを調べ、ユーザーがどのようにしてサイトにたどり着いたかを正確に把握します。

サイトに関する情報を共有する

サイトマップを使用してページについて教えてください。どのサイトが最も重要で、どのくらいの頻度で変更されますか。また、インデックスに登録する URL をどのように表示するかをお知らせください。

score 2 · Accepted Answer

これは必須ではありません。Google に対してサービスコールを実行して、キャッシュされたページを検索できます。つまり、時間と日付を含むcache:stackoverflow.comを検索できます。これをより直接的に行うための API 呼び出しがあったとしても、私は驚かないでしょう (更新: Google Search API )。

score 0 · Accepted Answer

Last Googlebot Access は、mypagerank.net や Google ツールバーなどの Web サイトから無料で見つけることもできます。

unix - Google が最後にクロールした方法を調べる

3 に答える 3

Related

Reference