7

Google キャッシュ内で検索しようとしているので、次のクエリを起動する必要があります。

http://webcache.googleusercontent.com/search?q=cache:news.ycombinator.com/news+hacker+news

ページからタイムスタンプなどのコンテンツを取得します。しかし、curl (ruby) を使用してこれを行うと、権限が拒否されたというエラーが表示されます。つまり、スクレイピングがブロックされており、これは予期されていたことです。

では、Google キャッシュ (API または何らかの回避策のスクレイピング) を検索し、タイムスタンプなどの情報を抽出する方法はありますか?

4

2 に答える 2

2

API を取得できませんでしたが、レールでhpricotまたはnokogiriを使用してスクレイピングできます (Rails のカールは許可拒否エラーを返します)。これらの gem を使用して上記の URL からタイムスタンプを抽出する方法を見つけたら、コードを掲載します。

誰もがより良い解決策を持っていますか?

于 2010-10-24T21:02:27.783 に答える
0

これはそれができるように見えます: http://code.google.com/apis/soapsearch/reference.html#1_2

于 2012-01-13T11:11:51.000 に答える