3

私は2つのデータセットを持っています:

A = {uid, url}; B = {uid, url};

今私はcogroup

C = COGROUP A BY uid, B BY uid;

group AS uid, DISTINCT A.url+B.urlCを{ }に変更したい。

私の質問は、この2つのバッグA.urlとB.urlの連結をどのように行うかです。

DISTINCT別の言い方をすれば、複数の列でどのように行うのですか?

4

2 に答える 2

0

それはあなたが期待しているものではありませんが、それはあなたの質問から私が理解したものです:

C = JOIN A BY uid, B BY uid;
D = DISTINCT C;

連結は次の方法で行われます。

E = FOREACH D GENERATE CONCAT(A::uid,B::uid); 
于 2013-03-01T17:27:49.637 に答える
0
A = LOAD 'A' using PigStorage() as (uid,url);
B = LOAD 'B' using PigStorage() as (uid,url);
C = JOIN A by uid ,B by uid;
D = FOREACH C GENERATE $0,CONCAT(A::url,B::url);
E= DISTINCT D;
dump E;
于 2015-10-23T07:56:15.020 に答える