EMRで一連のMapReduce
ジョブを実行しています。ただし、3 番目のMapReduce
ジョブは 2 番目のジョブから出力されたデータを必要MapReduce
とし、出力は基本的に 100 万を超えるキーと値のペアです (キーと値の両方が 1KB 未満です)。この情報を EMR と同じマシン上の分散ストアに保存して、後続のジョブが情報にアクセスできるようにする良い方法はありますか? を見ましたDistributedCache
が、ファイルを保存するためのものですか?Hadoop が 100 万個の小さなファイルを格納するために最適化されているかどうかはわかりません..
または、何らかの形で別のMapReduce
ジョブを使用して、すべてのキーと値のペアを 1 つの出力ファイルに結合し、そのファイル全体をDistributedCache
.
お知らせ下さい。ありがとう!