1

EMRで一連のMapReduceジョブを実行しています。ただし、3 番目のMapReduceジョブは 2 番目のジョブから出力されたデータを必要MapReduceとし、出力は基本的に 100 万を超えるキーと値のペアです (キーと値の両方が 1KB 未満です)。この情報を EMR と同じマシン上の分散ストアに保存して、後続のジョブが情報にアクセスできるようにする良い方法はありますか? を見ましたDistributedCacheが、ファイルを保存するためのものですか?Hadoop が 100 万個の小さなファイルを格納するために最適化されているかどうかはわかりません..

または、何らかの形で別のMapReduceジョブを使用して、すべてのキーと値のペアを 1 つの出力ファイルに結合し、そのファイル全体をDistributedCache.

お知らせ下さい。ありがとう!

4

1 に答える 1