私は2つのデータセットを持っています:
A = {uid, url}; B = {uid, url};
今私はcogroup
:
C = COGROUP A BY uid, B BY uid;
group AS uid, DISTINCT A.url+B.url
Cを{ }に変更したい。
私の質問は、この2つのバッグA.urlとB.urlの連結をどのように行うかです。
DISTINCT
別の言い方をすれば、複数の列でどのように行うのですか?
私は2つのデータセットを持っています:
A = {uid, url}; B = {uid, url};
今私はcogroup
:
C = COGROUP A BY uid, B BY uid;
group AS uid, DISTINCT A.url+B.url
Cを{ }に変更したい。
私の質問は、この2つのバッグA.urlとB.urlの連結をどのように行うかです。
DISTINCT
別の言い方をすれば、複数の列でどのように行うのですか?
それはあなたが期待しているものではありませんが、それはあなたの質問から私が理解したものです:
C = JOIN A BY uid, B BY uid;
D = DISTINCT C;
連結は次の方法で行われます。
E = FOREACH D GENERATE CONCAT(A::uid,B::uid);
A = LOAD 'A' using PigStorage() as (uid,url);
B = LOAD 'B' using PigStorage() as (uid,url);
C = JOIN A by uid ,B by uid;
D = FOREACH C GENERATE $0,CONCAT(A::url,B::url);
E= DISTINCT D;
dump E;