行う作業を大きく 2 つの部分に分けます。
distcp を介して S3 から HDFS にコピーする巨大なデータ (約 1 TB に達し、数百のファイルに分割) があります。
このデータは、Hadoop ストリーミング ジョブ (Python で記述された単純なマッパーとリデューサー) によって処理されます。
ここで、すべてのデータがコピーされるまで待つ必要がHDFS
あり、その後で初めて実際の仕事を開始できます。ここに質問があります: それ自体が map-reduce ジョブであることを考慮するとDISTCP
、これら 2 つのジョブを「合理化」できる方法はありますかdistcp
? 2番目のジョブが技術的にすでに開始できるいくつかのファイル)?
私は自分自身を明確にしたことを願っています。