0

10 個のインスタンスを使用して 20 Gb の入力を処理する必要があるとします。2Gb の入力ファイルが 10 個あるのと、5Gb の入力ファイルが 4 個あるのは違いますか? 後者の場合、Amazon Elastic MapReduce は 4 つの入力ファイルの負荷を 10 個のインスタンスに自動的に分散できますか? (私のマッパーはルビーを使用して書かれているので、ストリーミングメソッドを使用しています)

4

1 に答える 1

3

重要なのは、ファイルが分割可能かどうかだけです。

ファイルが圧縮されていないプレーン テキストであるか、lzo で圧縮されている場合、Hadoop は分割を整理します。

x5 2GB ファイルは最大 100 個の分割になるため、最大 100 個のマップ タスク (10GB / 128MB (EMR ブロックサイズ) ~= 100)

x10 個の 1GB ファイルは、再び最大 100 個の分割が発生するため、ここでも 100 個のマップ タスクが発生します。

ファイルが gzip または bzip2 で圧縮されている場合、Hadoop (少なくとも EMR で実行されているバージョン) はファイルを分割しません。

x5 2GB ファイルの場合、分割は 5 つだけになります (したがって、マップ タスクも 5 つだけになります)。

x10 1GB ファイルは 10 個の分割のみになります (したがって、10 個のマップ タスクのみになります)。

マット

于 2011-07-08T23:41:25.400 に答える