s3distcp を使用して、残念ながらgz
拡張子で終わらない小さな gzip ファイルをたくさんコンパイルしようとしています。そこ s3distcp にはoutputCodec
、出力を圧縮するために使用できる引数がありますが、対応するinputCodec
. Hadoop ストリーミング呼び出しで使用しようとして--jobconf
いますが、何もしていないようです (出力はまだ gzip されています)。私が使用しているコマンドは
hadoop jar lib/emr-s3distcp-1.0.jar -Dstream.recordreader.compression=gzip \
--src s3://inputfolder --dest hdfs:///data
何が起こっているのでしょうか?AWS EMR AMI-3.9 を実行しています。