0

id の行が重複しているテーブルがある場合、

次のクエリでHiveを使用して見つけることができます

create table dupe as select * from table1 group by id having count(*) > 1;

Pig を使用して同じ機能を実行できますか?

はいの場合、誰かがそれを手伝ってくれますか?

4

1 に答える 1

5

次のコードが役立つ場合があります。

r1 = load ...;
r2 = group r1 by id;
r3 = foreach r2 generate COUNT(r1) as c, r1;
r4 = filter r3 by c > 1;
r5 = foreach r4 generate FLATTEN(r1);
dump r5;

ただし、注文は予約されていません。

于 2013-10-23T07:34:18.077 に答える