私はEMRを初めて使用し、過去数日間苦労してきたいくつかの質問がありました。最初のログは、処理したいログがすでに.gzとして圧縮されており、これらのタイプのファイルをemrで分割して、1つのファイルで複数のマッパーが機能するかどうか疑問に思っていました。また、入力ファイルは5 GBでない限り分割されないことを読んでいますが、ファイルはそれほど大きくないので、1つのインスタンスでのみ処理されるということですか?
私の他の質問は比較的ばかげているように見えるかもしれませんが、emr + streamingを使用して、s3以外の場所に入力を入れることは可能ですか?CDNからログをダウンロードしてから、それらをs3バケットにアップロードしてmapreduceを実行する必要があるのは冗長なようです。今、私はそれらを私のサーバーにダウンロードしていて、私のサーバーはそれらをs3にアップロードしています、仲介者を切り取ってs3に直接移動させる方法、または私のサーバーから入力を実行する方法はありますか?