1

私はEMRを初めて使用し、過去数日間苦労してきたいくつかの質問がありました。最初のログは、処理したいログがすでに.gzとして圧縮されており、これらのタイプのファイルをemrで分割して、1つのファイルで複数のマッパーが機能するかどうか疑問に思っていました。また、入力ファイルは5 GBでない限り分割されないことを読んでいますが、ファイルはそれほど大きくないので、1つのインスタンスでのみ処理されるということですか?

私の他の質問は比較的ばかげているように見えるかもしれませんが、emr + streamingを使用して、s3以外の場所に入力を入れることは可能ですか?CDNからログをダウンロードしてから、それらをs3バケットにアップロードしてmapreduceを実行する必要があるのは冗長なようです。今、私はそれらを私のサーバーにダウンロードしていて、私のサーバーはそれらをs3にアップロードしています、仲介者を切り取ってs3に直接移動させる方法、または私のサーバーから入力を実行する方法はありますか?

4

1 に答える 1

3

はすでに.gzとして圧縮されており、これらのタイプのファイルをemrで分割して、1つのファイルで複数のマッパーが機能するかどうか疑問に思っていました。

残念ながら、いいえ、ストレートgzipファイルは分割できません。1つのオプションは、ログファイルをより頻繁にロールすることです。この非常に単純なソリューションは、少し不器用ですが、一部の人には有効です。

また、入力ファイルは5 GBでない限り分割されないことを読んでいますが、

これは間違いなくそうではありません。ファイルが分割可能である場合、mapred.max.split.sizeの構成など、ファイルを分割する方法について多くのオプションがあります。[1]が利用可能なオプションの良い説明であることがわかりました。

emr + streamingを使用して、s3以外の場所に入力を入れることは可能ですか?

はい。Elastic MapReduceがVPCをサポートするようになったため、CDNに直接接続できます[2]

[1] http://www.scribd.com/doc/23046928/Hadoop-Performance-Tuning

[2] http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EnvironmentConfig_VPC.html?r=146

于 2011-12-30T18:07:15.527 に答える