amazon-emr - Amazon Elastic Map Reduce: 入力フラグメントのサイズは重要ですか

Question

10 個のインスタンスを使用して 20 Gb の入力を処理する必要があるとします。2Gb の入力ファイルが 10 個あるのと、5Gb の入力ファイルが 4 個あるのは違いますか? 後者の場合、Amazon Elastic MapReduce は 4 つの入力ファイルの負荷を 10 個のインスタンスに自動的に分散できますか? （私のマッパーはルビーを使用して書かれているので、ストリーミングメソッドを使用しています）

score 3 · Accepted Answer

重要なのは、ファイルが分割可能かどうかだけです。

ファイルが圧縮されていないプレーンテキストであるか、lzo で圧縮されている場合、Hadoop は分割を整理します。

x5 2GB ファイルは最大 100 個の分割になるため、最大 100 個のマップタスク (10GB / 128MB (EMR ブロックサイズ) ~= 100)

x10 個の 1GB ファイルは、再び最大 100 個の分割が発生するため、ここでも 100 個のマップタスクが発生します。

ファイルが gzip または bzip2 で圧縮されている場合、Hadoop (少なくとも EMR で実行されているバージョン) はファイルを分割しません。

x5 2GB ファイルの場合、分割は 5 つだけになります (したがって、マップタスクも 5 つだけになります)。

x10 1GB ファイルは 10 個の分割のみになります (したがって、10 個のマップタスクのみになります)。

マット

amazon-emr - Amazon Elastic Map Reduce: 入力フラグメントのサイズは重要ですか

1 に答える 1

Related

Reference