1

次のような入力を含む豚のスクリプトがあります。

| | コルA | B列 | C列 | D列 | E列 |

さまざまな列でグループ化された次のような関係があります。

X = 列 A | 合計列 C | 合計列 D|

Y = 列 B | 合計列 D | 合計列 E|

Z = ...

次に、X、Y、Z を別のフォルダーに保存する必要があるため、STORE を複数回呼び出すことになります。Pig は、データを 1 回だけロードして処理し、その後ストアを実行する方法を知っていますか?

4

3 に答える 3

0

入力は 1 回だけ読み込まれますが、それぞれGROUP BYに個別の MapReduce ジョブが必要です。

この例では、グループ化しCol ACol Bいるため、スクリプトは 2 つのジョブにコンパイルされます。

于 2013-06-22T11:05:18.633 に答える
0

はい、Pig はその方法を知っています。MRジョブは1つだけです。

于 2013-06-22T18:31:53.547 に答える