以下のように単純なロードとカウント機能を実行しています
my_src = LOAD '<>' using PigStorage('|') AS (
<<スキーム定義>> );
my_count = FOREACH (GROUP my_src ALL) GENERATE COUNT(my_src); my_count を「file1」に格納します。
私が得た答えは、約2億7900万行です。
group my_grp = group my_src by (key1, key2, key3 , key4); を実行すると、
my_grp_cnt = FOREACH (GROUP my_grp ALL) GENERATE COUNT(my_grp);
my_count を「file2」に格納します。
私が得る答えは、約5億7200万行です。
私の期待は、減らすのと同じままであるということでした。ここに欠けているものはありますか?
CDH 5 で PIG 0.12 を使用しています