0

以下のように単純なロードとカウント機能を実行しています

my_src = LOAD '<>' using PigStorage('|') AS (

<<スキーム定義>> );

my_count = FOREACH (GROUP my_src ALL) GENERATE COUNT(my_src); my_count を「file1」に格納します。

私が得た答えは、約2億7900万行です。

group my_grp = group my_src by (key1, key2, key3 , key4); を実行すると、

my_grp_cnt = FOREACH (GROUP my_grp ALL) GENERATE COUNT(my_grp);

my_count を「file2」に格納します。

私が得る答えは、約5億7200万行です。

私の期待は、減らすのと同じままであるということでした。ここに欠けているものはありますか?

CDH 5 で PIG 0.12 を使用しています

4

0 に答える 0