0

特定の値に達するまで列の合計を計算する方法を教えてください。ユースケース: 収益の 50% を生み出したトップ製品。

それを行うためのピギーバンクのようなライブラリはありますか、ピギーバンクで見つけることができませんでした。

私はUDFを実装しようとしていますが、唯一の方法が心配です:(。

データ構造は次のようになります-

productId、totalProfitByProduct、totalProfitByCompany、totalRevenueOfCompany。

データは totalProfitByProduct の降順です。totalProfitByCompany、totalRevenueOfCompany はすべての行で同じままです。

ここで、上から上の各製品の totalProfitByProduct に合計を適用し、totalProfitByCompany または totalRevenueOfCompany の 50% 以上を生成した上位の製品を取得したいと考えています。

4

1 に答える 1

0

piggybank にはパーセンタイル UDf があり、要件に使用できます。

Pig Script と udf を併用すると、これを実現できます。

于 2015-05-19T16:21:34.187 に答える