過去の日付の長いリストについて、USD から別の通貨 (EUR など) への為替レートを抽出する必要があります。
Web サイトには過去のwww.xe.com
検索ツールがあり、詳細な URL を使用して、特定の日付の料金表を取得できDate:
ますFrom:
。たとえば、URL http://www.xe.com/currencytables/?from=USD&date=2012-10-15は、2012 年 10 月 15 日の米ドルから他の通貨への換算レートの表を示します。
ここで、日付のリストがあるとします。リストをループして、その URL の日付部分を変更し、必要なページを取得できます。レート リストを抽出できれば、単純grep EUR
に関連する為替レートが得られます (awk を使用してレートを具体的に抽出できます)。
問題は、Linux コマンド ライン コマンドを使用してページを取得するにはどうすればよいかということです。試してみwget
ましたが、うまくいきませんでした。
CLIではない場合、プログラムでそれを行う簡単で簡単な方法はありますか(つまり、日付をコピーしてブラウザのアドレスバーに貼り付けるよりも時間がかかりません)?
更新 1:
実行時:
$ wget 'http://www.xe.com/currencytables/?from=USD&date=2012-10-15'
以下を含むファイルを取得します。
<HTML>
<HEAD><TITLE>Autoextraction Prohibited</TITLE></HEAD>
<BODY>
Automated extraction of our content is prohibited. See <A HREF="http://www.xe.com/errors/noautoextract.htm">http://www.xe.com/errors/noautoextract.htm</A>.
</BODY>
</HTML>
そのため、サーバーはクエリのタイプを識別してブロックできるようwget
です。これを回避する方法はありますか?
更新 2:
wget
コマンドからの応答とコメント/回答を読んだ後、Web サイトの ToS を確認したところ、次の条項が見つかりました。
You agree that you shall not:
...
f. use any automatic or manual process to collect, harvest, gather, or extract
information about other visitors to or users of the Services, or otherwise
systematically extract data or data fields, including without limitation any
financial and/or currency data or e-mail addresses;
これで、この面での取り組みは終了したと思います。
さて、私の好奇心のためにwget
、HTTP リクエストが生成された場合、サーバーはそれがブラウザのリクエストではなくコマンドであることをどのように認識しますか?