私はpysparkが初めてです
次のようなデータセットがあります(いくつかの列のスナップショットのみ)
データをキーでグループ化したい。私の鍵は
CONCAT(a.div_nbr,a.cust_nbr)
私の最終的な目標は、データをこのようにフォーマットされた JSON に変換することです
k1[{v1,v2,....},{v1,v2,....}], k2[{v1,v2,....},{v1,v2,....}],....
例えば
248138339 [{ PRECIMA_ID:SCP 00248 0000138339, PROD_NBR:5553505, PROD_DESC:Shot and a Beer Battered Onion Rings (5553505 and 9285840) , PROD_BRND:Molly's Kitchen,PACK_SIZE:4/2.5 LB, QTY_UOM:CA } ,
{ PRECIMA_ID:SCP 00248 0000138339 , PROD_NBR:6659079 , PROD_DESC:Beef Chuck Short Rib Slices, PROD_BRND:Stockyards , PACK_SIZE:12 LBA , QTY_UOM:CA} ,{...,...,} ],
1384611034793[{},{},{}],....
データフレームを作成しました(基本的に2つのテーブルを結合して、さらにフィールドを取得しています)
joinstmt = sqlContext.sql(
"SELECT a.precima_id , CONCAT(a.div_nbr,a.cust_nbr) as
key,a.prod_nbr , a.prod_desc,a.prod_brnd , a.pack_size , a.qty_uom , a.sales_opp , a.prc_guidance , a.pim_mrch_ctgry_desc , a.pim_mrch_ctgry_id , b.start_date,b.end_date
FROM scoop_dtl a join scoop_hdr b on (a.precima_id =b.precima_id)")
さて、上記の結果を得るには、キーに基づいて結果でグループ化する必要があります。次のことを行いました
groupbydf = joinstmt.groupBy("key")
これにより、グループ化されたデータがintpになり、読んだ後、それを直接使用できないことがわかり、データフレームに変換して保存する必要があります。
私はそれに慣れていないので、データフレームに戻すために助けが必要です。または、他の方法もあれば幸いです。