Mapper/Reducer 1 --> (key,value)
/ | \
/ | \
Mapper/Reducer 2 | Mapper/Reducer 4
-> (oKey,oValue) | -> (xKey, xValue)
|
|
Mapper/Reducer 3
-> (aKey, aValue)
MR1 に集約するログファイルがあります。Mapper2、Mapper3、Mapper4 は、MR1 の出力を入力として受け取ります。仕事は連鎖しています。
MR1 出力:
User {infos of user:[{data here},{more data},{etc}]}
..
MR2 出力:
timestamp idCount
..
MR3 出力:
timestamp loginCount
..
MR4 出力:
timestamp someCount
..
MR2-4の出力をまとめたい:最終出力→
timestamp idCount loginCount someCount
..
..
..
Pig または Hive を使用しない方法はありますか? 私はJavaを使用しています。