0

s3distcp を使用して、残念ながらgz拡張子で終わらない小さな gzip ファイルをたくさんコンパイルしようとしています。そこ s3distcp にはoutputCodec、出力を圧縮するために使用できる引数がありますが、対応するinputCodec. Hadoop ストリーミング呼び出しで使用しようとして--jobconfいますが、何もしていないようです (出力はまだ gzip されています)。私が使用しているコマンドは

hadoop jar lib/emr-s3distcp-1.0.jar -Dstream.recordreader.compression=gzip \
           --src s3://inputfolder --dest hdfs:///data

何が起こっているのでしょうか?AWS EMR AMI-3.9 を実行しています。

4

1 に答える 1