0

特定のウィキペディア記事のソースを自分のコンピューターにダウンロードしようとしています。ただし、wget および curl ツールは機能しません。理由はわかりません。wget http://en.wikipedia.org/wiki/List_of_current_NFL_team_rostersまたはのようなものを入力するたびに、意味curl http://en.wikipedia.org/wiki/List_of_current_NFL_team_rosters不明になります (curl と wget の両方で同じ)。

私が得る出力の最初の行:??N?????g???????^??L??~???IR?OX/?џ??X???4????b???m??Jk??o߾5E_S???D?xT????y???>??b?C?g?B?#?}????ŏ?Hv?K?dڛ?L˿l?K??,???T?c????n?????F*???'???w??z??d??? ???Y1Id?z?:7C?'W2??(?%>?~ԫ?|~7??4?%qz?r???H?]??P?PH 77I??Z6~{z??UG?~???]?.?#?G?F\????ӓ???8??ߞ?

なぜこれが起こっているのかについてのアイデアはありますか?

4

3 に答える 3

3
curl --compressed http://en.wikipedia.org/wiki/List_of_current_NFL_team_rosters

wget: http://www.commandlinefu.com/commands/view/7180/get-gzip-compressed-web-page-using-wget .

于 2012-05-08T05:33:44.440 に答える
2

gzip 圧縮されたデータを取得する理由は、デフォルトで Wiki データが gzip 形式で送信されるためです。応答のヘッダーを確認する場合 (Fiddler などのツールでこれを行うことができます)

HTTP/1.0 200 OK
Date: Tue, 08 May 2012 03:45:40 GMT
Server: Apache
X-Content-Type-Options: nosniff
Cache-Control: private, s-maxage=0, max-age=0, must-revalidate
Content-Language: en
Vary: Accept-Encoding,Cookie
Last-Modified: Tue, 08 May 2012 02:33:41 GMT
Content-Length: 83464
Content-Type: text/html; charset=UTF-8
Age: 6415
X-Cache: HIT from cp1008.eqiad.wmnet
X-Cache-Lookup: HIT from cp1008.eqiad.wmnet:3128
X-Cache: MISS from cp1018.eqiad.wmnet
X-Cache-Lookup: MISS from cp1018.eqiad.wmnet:80
Connection: close
Content-Encoding: gzip

ヘッダーの最後の行は、表示されている内容の手がかりです。したがって、wiki から出力をストリーミングし、それを gunzip にパイプして、必要な応答を得ることができます。

于 2012-05-08T05:42:57.100 に答える
1

端末に問題があると思います。これを試して:

wget -q -O - http://en.wikipedia.org/wiki/List_of_current_NFL_team_rosters

于 2012-05-08T05:35:17.803 に答える