1

入力場所が S3 のファイルである場合、EMR ジョブを呼び出してから実際にデータの mapreduce 処理を開始するまでに長い待ち時間があることに気付きました。私の質問は、EMR はネイティブ S3 ファイルシステムにあるデータで直接実行されますか、それともプロビジョニングされた EC2 マシンの HDFS クラスター (EMR クラスター内) にデータをコピーしますか?データのコピーにかかる時間は?

4

1 に答える 1

2

S3 はストレージ メカニズムであるため、データを処理することはできません。そのため、MR ジョブで処理する前に、データを EC2 ノードにコピーする必要があります。

于 2013-10-15T06:17:11.057 に答える