問題はContent-Type
ありません...ファイルがcsvの場合は正しいですが、gzipで保存した場合は、ヘッダーメタデータも設定する必要がありました。Content-Encoding: gzip
それを行うと、それらをフェッチしているユーザーエージェントがトリガーされ、ダウンロード時にオンザフライでガンジップされます...それを行っていれば、「うまくいった」はずです。
(私は gzip で圧縮されたログ ファイルをこの方法で保存します。Web ブラウザーを使用してダウンロードするContent-Type: text/plain
とContent-Encoding: gzip
、取得したファイルは gzip ではなくなります。これは、ブラウザーが Content-Encoding ヘッダーのためにオンザフライで圧縮を解除するためです。)
しかし、あなたはすでにファイルをアップロードしているので、私はグーグルマシンでこれを見つけました。
GZip 入力。私の入力データの多くはすでに gzip されていましたが、幸運なこと-jobconf stream.recordreader.compression=gzip
に、追加の引数セクションを渡すと、Hadoop はデータをマッパーに渡す前にその場で解凍します。
http://petewarden.typepad.com/searchbrowser/2010/01/elastic-mapreduce-tips.html