wget - wgetを使用してGoogleトレンドからcsvをプルする

Question

wgetを使用してGoogleトレンドのcsvデータをダウンロードしたいのですが、wgetの使用に慣れていません。URLの例は次のとおりです。

http://www.google.com/insights/search/overviewReport?cat=71&geo=US&q=apple&date&cmpt=q&content=1&export=1

これをWebブラウザーで開くと、期待されるファイルを取得します。wgetでこれを行うために、次のコマンドを試しました。

wget "http://www.google.com/insights/search/overviewReport?cat=71&geo=US&q=apple&date&cmpt=q&content=1&export=1" -O report.csv

その結果、次のようになります。

<html><head><title>Redirecting</title>
<meta http-equiv="refresh" content="0; url=&#39;http://www.google.com/insights/search#content=1&amp;cat=71&amp;geo=US&amp;q=apple&amp;date&amp;cmpt=q&#39;"></head>
<body bgcolor="#ffffff" text="#000000" link="#0000cc" vlink="#551a8b" alink="#ff0000"><script type="text/javascript" language="javascript">
    location.replace("http://www.google.com/insights/search#content\x3d1\x26cat\x3d71\x26geo\x3dUS\x26q\x3dapple\x26date\x26cmpt\x3dq")
  </script></body></html>

私の最初の推測はwget、適切な認証でCookieにアクセスできないということです。

誰か？

score 2 · Accepted Answer

リダイレクトメッセージが表示されます。location.replaceビット内の URLとindex.htmlGoogle から取得した有効な URL は、への 2 回目の呼び出しでその URL ですwget。

csvデータがダウンロードされた場所から適切なURLを持っていないだけだと思います。ダウンローダで CGI インターフェイスを「ヒット」する方法の実例については、tseriesパッケージのRを参照してください。get.hist.quote()

編集: get.hist.quote() が行うことは次のとおりです。

R> IBM <- get.hist.quote("IBM")
trying URL 'http://chart.yahoo.com/table.csv?s=IBM&a=0&b=02&c=1991&d=9&e=08&f=2009&g=d&q=q&y=0&z=IBM&x=.csv'
Content type 'text/csv' length unknown
opened URL
.......... .......... .......... .......... ..........
.......... .......... .......... .......... ..........
.......... .......... .......... .......... ..........
.......... .......... .......... .......... ..........
.......... .......... .......... ......
downloaded 236 Kb

R>

学習できるコードに示されているように、同じ URL に直接アクセスできます。Cookie が必要な場合は、Duncan TL のコードを参照して、Google ドキュメントなどにアクセスする必要があります。

wget - wgetを使用してGoogleトレンドからcsvをプルする

1 に答える 1

Related

Reference