データ パイプラインのドキュメントによると、EMRActivity Step コマンドは、通常の EMR ジョブとは異なる形式を使用します。
簡単な例を次に示します。
/home/hadoop/contrib/streaming/hadoop-streaming.jar,-input,s3://mybucket/folder1/*.gz,-output,s3://output,-mapper=mapper,-reduce=reducer.
複数のバケットからデータを取得する必要があるとしましょう。これらの複数の入力を 1 つのステップ コマンドに渡すにはどうすればよいでしょうか?
通常の EMR ジョブのセットアップでは、入力パスをコンマで区切るだけですが、EmrActivity ではうまくいかないようです。
コピー アクティビティをセットアップしてデータを一時的な一意の場所に移動するのではなく、EmrActivity のソリューションに非常に興味があります。
ありがとう。