13

Ubuntuで、wgetを使用して(スクリプトから)ファイルをダウンロードしようとしています。このファイルを毎日ダウンロードしてHadoopクラスターにロードするプログラムをビルドします。

ただし、wgetは失敗し、次のメッセージが表示されます。

wget http://www.nseindia.com/content/historical/EQUITIES/2012/JUN/cm15JUN2012bhav.csv.zip
--2012-06-16 03:37:30--  http://www.nseindia.com/content/historical/EQUITIES/2012/JUN/cm15JUN2012bhav.csv.zip
Resolving www.nseindia.com... 122.178.225.48, 122.178.225.18
Connecting to www.nseindia.com|122.178.225.48|:80... connected.
HTTP request sent, awaiting response... 403 Forbidden
2012-06-16 03:37:30 ERROR 403: Forbidden.

Firefoxまたは同等のURLで同じURLを試してみると、問題なく動作します。そして、はい、ライセンス契約のようなものは関係していません...

wgetに関する基本的なことを見逃していますか?

4

5 に答える 5

14

wgetはデフォルトで珍しいユーザーエージェントを使用するため、サイトはwgetをブロックします。wgetで別のユーザーエージェントを使用するには、次のことを試してください。

wget -U Mozilla/5.0 http://www.nseindia.com/content/historical/EQUITIES/2012/JUN/cm15JUN2012bhav.csv.zip
于 2012-06-15T22:17:25.867 に答える
6

使用する:

wget -U mozilla http://www.nseindia.com/content/historical/EQUITIES/2012/JUN/cm15JUN2012bhav.csv.zip

一部のサイトでは、wgetuser-agentがファイルをダウンロードできないようにしています。このコマンドでそのファイルをダウンロードしました。できます。

于 2012-06-15T22:13:29.910 に答える
1

WebアプリまたはWebサーバーが使用する可能性のある別の手法は、「リファラー」コンテンツヘッダー値をチェックすることです。ユーザーエージェントを指定することに加えて、リファラーURLを指定する必要がある場合があります。

例えば、

wget --referer http://freestockphotos.com/Scenery1.html http://freestockphotos.com/SKY/TreeSunset.jpg

このホストは、「Scenery1.html」ページからのナビゲート中にターゲットファイルの要求が行われなかった場合、それらの要求を拒否しているように見えます。

于 2012-07-19T00:36:18.283 に答える
1

curl -O <URL>wgetはHTTPSやその他のプロトコルをサポートしていないため、私はこれを使用します。

于 2014-05-14T07:54:47.750 に答える
0

一部のサイトでは、wgetuser-agentがファイルをダウンロードできないようにしていますwget-U'Mozilla / 5.0(X11; U; Linux i686; en-US; rv:1.8.1.6)Gecko / 20070802 SeaMonkey / 1.1.4' http:// yourURL .com

于 2014-07-19T05:41:09.313 に答える