私は apache pig が初めてで、pig スクリプトを記述してボトムアップ キューブを実装したいと考えています。ただし、これには階層的な方法でグループ化する必要があります。
たとえば、私のデータが (exchange,symbol,date,dividend) の形式で、配当がメジャーで、残りがディメンションである場合、最初にデータを exchange でグループ化し、総配当を出力し、次に exchange でさらにグループ化し、シンボルなど。
これを行う 1 つの方法は、グループごとの交換、グループごとのシンボル、グループごとの (交換、シンボル) など、可能なすべてのグループ化をスクリプトに記述することです。ただし、これは最適ではないようです。(たとえば)最初に交換ごとにグループ化し、次にすべての交換グループについて、シンボルごとに内部的にグループ化して(交換)の集約を生成し、次に(交換、シンボル)の集約を生成する方法はありますか?これはより効率的です。
ここで同様のことが議論されていますが、私の質問には答えませんでした: Pig LatinでネストされたFOREACHステートメントを使用してネストされたバッグを生成できますか? ありがとう!