r - Google ニュースで見つかった tot ページを取得する方法 (Curl のユーザーエージェントは機能しません)?

Question

私のプロジェクトでは、特定のキーワードについて (Google ニュースから) ニュース数の毎日の統計を取得する必要があります。しかし問題は、ブラウザ経由で取得した結果が RCurl 経由で取得した結果とはまったく異なることです。いくつかのオプションが欠けているようです。何をすべきですか？ヒントをお寄せいただきありがとうございます。

これがコードです（すべてではなく、rcurlオプションのみ）が、DPageのコンテンツはブラウザが表示するものとは異なります:( :

    require(RCurl)
    theURL<-"http://www.google.com/search?tbm=nws&q=Putin&tbs=cdr:1%2Ccd_min%3A09.11.10%2Ccd_max%3A09.11.11&tbm=nws"
    ch <- getCurlHandle()
    curlSetOpt(curl = ch,
               ssl.verifypeer = FALSE,
               useragent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/534.53.11 (KHTML, like Gecko) Version/5.1.3 Safari/534.53.10",
               timeout = 60,
               followlocation = TRUE,
               cookiejar = "./cookies",
               cookiefile = "./cookies") 
DPage <- getURL(theURL, curl = ch)

score 1 · Accepted Answer

Google には、カスタム検索 API を使用しない自動化されたリクエストを防ぐためのいくつかの防御策があります。スクリプトの代わりに Bing 検索エンジンの URL を使用してみてください。これらは、開発者向けの寛大なカスタム検索 API も提供します。 http://www.bing.com/news/search?q=putin&p1=[NewsVertical+SortByDate%3d%221%22]&FORM=YGNR

または、無料の RSS フィードを使用すると、読まれることに抵抗がなくなります。 http://api.bing.com/rss.aspx?Source=News&Market=en-GB&Version=2.0&Query=putin

r - Google ニュースで見つかった tot ページを取得する方法 (Curl のユーザー エージェントは機能しません)?

1 に答える 1

Related

Reference

r - Google ニュースで見つかった tot ページを取得する方法 (Curl のユーザーエージェントは機能しません)?