2

Google Cache を使用して、他の Web サイトの Web ページにアクセスしなくてもアクセスできるようにしたいと考えています。

このようなクエリ を実行http://webcache.googleusercontent.com/search?q=cache:<URL without SCHEME>すると、データを取得できます。

私は次のことを見つけました/仮定します(質問0.それらのいずれかが間違っている場合は修正してください):

  1. Google は、サイトのポリシーに応じて、キャッシュされた情報を持っている場合と持っていない場合があります。
  2. JavaScriptを実行する必要がある場合、GoogleはとにかくWebサイトにアクセスします。
  3. Google は、テキストの最初の 101 KB だけを保存します。

質問 1. Google のキャッシュには最近クロールされたページしか表示されないことはわかっていますが、このデータがどれくらい古いかについて何か考えはありますか?

質問 2. その Web サイトにアクセスしたすべてのヒットを Google キャッシュに移動する予定がある場合、問題はありますか (Web サイトがキャッシュされており、古いページがほとんどなくても問題ないと仮定します)?

質問 3. Wayback Machine はデータを提供しますが、データのクロールと表示の間に大きな遅延があります。最近アーカイブされたデータ (Wayback マシンや Google キャッシュなど) を取得できるディレクトリはありますか?

4

2 に答える 2

2

Googleのキャッシュには最近クロールされたページしか表示されないことは知っていますが、このデータがどれくらい古い可能性があるかについて何か考えはありますか?

URLでcache:演算子を使用します

そのウェブサイトにヒットしたすべてのヒットをGoogleキャッシュに移動する予定がある場合、問題はありますか(ウェブサイトがキャッシュされていて、古いページがほとんどなくても問題ないと仮定します)。

所有者は、キャッシュからのコンテンツの削除を要求できます

最近アーカイブされたデータを取得できるディレクトリはありますか?

URLでtbs=qdr:クエリパラメータを使用します

于 2013-01-12T01:10:32.490 に答える
0

質問 3 については、以前はすべての Wayback Machine の Web キャプチャが 6 か月前のものでしたが、それは 2012 年にはすでに真実ではなくなり、2016 年の現在では非常に真実ではありません。新しいコンテンツがたくさんあります。

于 2016-06-10T00:10:44.933 に答える