私のプロジェクトでは、特定のキーワードについて (Google ニュースから) ニュース数の毎日の統計を取得する必要があります。しかし問題は、ブラウザ経由で取得した結果が RCurl 経由で取得した結果とはまったく異なることです。いくつかのオプションが欠けているようです。何をすべきですか?ヒントをお寄せいただきありがとうございます。
これがコードです(すべてではなく、rcurlオプションのみ)が、DPageのコンテンツはブラウザが表示するものとは異なります:( :
require(RCurl)
theURL<-"http://www.google.com/search?tbm=nws&q=Putin&tbs=cdr:1%2Ccd_min%3A09.11.10%2Ccd_max%3A09.11.11&tbm=nws"
ch <- getCurlHandle()
curlSetOpt(curl = ch,
ssl.verifypeer = FALSE,
useragent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/534.53.11 (KHTML, like Gecko) Version/5.1.3 Safari/534.53.10",
timeout = 60,
followlocation = TRUE,
cookiejar = "./cookies",
cookiefile = "./cookies")
DPage <- getURL(theURL, curl = ch)