aws .net sdk を使用して s3distcp ジョブを EMR に実行し、フォルダー内のすべてのファイルを --groupBy arg で連結しています。しかし、私が試した「groupBy」引数が何であれ、常に失敗するか、引数リストに --groupBy が指定されていない場合のように連結せずにファイルをコピーするだけです。
フォルダー内のファイルは、次のような名前の spark saveAsTextFiles です。
part-0000
part-0001
part-0002
...
...
step.HadoopJarStep = new HadoopJarStepConfig
{
Jar = "/usr/share/aws/emr/s3-dist-cp/lib/s3-dist-cp.jar",
Args = new List<string>
{
"--s3Endpoint=s3-eu-west-1.amazonaws.com",
"--src=s3://foo/spark/result/bar" ,
"--dest=s3://foo/spark/result-merged/bar",
"--groupBy=(part.*)",
"--targetSize=256"
}
};