特定のフィールドでグループ化し、グループ化されたフィールドで出力を取得したい。以下は、私が達成しようとしているものの例です:-
以下のように、2 つの列を持つ「sample_table」という名前のテーブルを想像してください。
F1 F2
001 111
001 222
001 123
002 222
002 333
003 555
以下の出力を与えるハイブクエリを書きたい:-
001 [111, 222, 123]
002 [222, 333]
003 [555]
Pig では、これは次のような方法で非常に簡単に実現できます。
grouped_relation = GROUP sample_table BY F1;
Hiveで簡単に行う方法があれば、誰かが提案できますか? 私が考えることができるのは、このためにユーザー定義関数 (UDF) を作成することですが、これは非常に時間のかかるオプションになる可能性があります。