そのため、以前は FTP を使用していたサイトが HTTP フロントエンドになり、FTP 接続が許可されなくなりました。問題のサイト(ディレクトリの例) には、異なる日付へのリンクを含むページが表示されます。これらの異なる日付のそれぞれには、多くのファイルがあり、通常、明確なパターンを持つファイルを取得する必要があります*h17v04*.hdf
. 私はこれがうまくいくと思った:
wget -I "${PLATFORM}/${PRODUCT}/${YEAR}.*" -r -l 4 \
--user-agent="Mozilla/5.0 (Windows NT 5.2; rv:2.0.1) Gecko/20100101 Firefox/4.0.1" \
--verbose -c -np -nc -nd \
-A "*h17v04*.hdf" http://e4ftl01.cr.usgs.gov/$PLATFORM/$PRODUCT/
どこPLATFORM=MOLT
、PRODUCT=MOD09GA.005
およびYEAR=2004
、たとえば。これは、すべての有用な日付の調査を開始し、 を見つけてindex.html
、関連する hdf ファイルをダウンロードせずに次のディレクトリにスキップするようです:
--2013-06-14 13:09:18-- http://e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.01/
Reusing existing connection to e4ftl01.cr.usgs.gov:80.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: `e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.01/index.html'
[ <=> ] 174,182 134K/s in 1.3s
2013-06-14 13:09:20 (134 KB/s) - `e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.01/index.html' saved [174182]
Removing e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.01/index.html since it should be rejected.
--2013-06-14 13:09:20-- http://e4ftl01.cr.usgs.gov/MOLT/MOD09GA.005/2004.01.02/
[...]
-A
このオプションを無視すると、index.html
ファイルだけがシステムにダウンロードされますが、解析されず、リンクがたどられていないように見えます。なぜうまくいかないのかわからないので、これを機能させるためにさらに何が必要なのか本当にわかりません!!!
解決
結局、問題は wget のローカル バージョンの古いバグによるものでした。しかし、上記のサーバーから MODIS データをダウンロードするための独自のスクリプトを作成することになりました。スクリプトは純粋な Python であり、ここから入手できます。