hadoop - Amazon EMR フレームワークは、MapReduce ジョブで使用する前に S3 からデータをコピーしますか?

Question

入力場所が S3 のファイルである場合、EMR ジョブを呼び出してから実際にデータの mapreduce 処理を開始するまでに長い待ち時間があることに気付きました。私の質問は、EMR はネイティブ S3 ファイルシステムにあるデータで直接実行されますか、それともプロビジョニングされた EC2 マシンの HDFS クラスター (EMR クラスター内) にデータをコピーしますか?データのコピーにかかる時間は?

score 2 · Accepted Answer

S3 はストレージメカニズムであるため、データを処理することはできません。そのため、MR ジョブで処理する前に、データを EC2 ノードにコピーする必要があります。

hadoop - Amazon EMR フレームワークは、MapReduce ジョブで使用する前に S3 からデータをコピーしますか?

1 に答える 1

Related

Reference