Google Cache を使用して、他の Web サイトの Web ページにアクセスしなくてもアクセスできるようにしたいと考えています。
このようなクエリ を実行http://webcache.googleusercontent.com/search?q=cache:<URL without SCHEME>
すると、データを取得できます。
私は次のことを見つけました/仮定します(質問0.それらのいずれかが間違っている場合は修正してください):
- Google は、サイトのポリシーに応じて、キャッシュされた情報を持っている場合と持っていない場合があります。
- JavaScriptを実行する必要がある場合、GoogleはとにかくWebサイトにアクセスします。
- Google は、テキストの最初の 101 KB だけを保存します。
質問 1. Google のキャッシュには最近クロールされたページしか表示されないことはわかっていますが、このデータがどれくらい古いかについて何か考えはありますか?
質問 2. その Web サイトにアクセスしたすべてのヒットを Google キャッシュに移動する予定がある場合、問題はありますか (Web サイトがキャッシュされており、古いページがほとんどなくても問題ないと仮定します)?
質問 3. Wayback Machine はデータを提供しますが、データのクロールと表示の間に大きな遅延があります。最近アーカイブされたデータ (Wayback マシンや Google キャッシュなど) を取得できるディレクトリはありますか?