scala - [Spark SQL]: 2 つの DataFrame が与えられ、新しい DataFrame を作成するルックアップ機能

Question

Spark 1.5 で Scala を使用しています。

2 つの DataFramesDataFrame1とが与えられた場合、でキーの値を検索し、結果を使用して作成しDataFrame2たいと考えています。各行に多くのキーがあり、出力 DataFrame には、以下の出力 DataFrame に示すように、同じ順序でキーと値が設定されている必要があるため、この機能は独特です。この機能は何百万ものレコード (〜 1000 万レコード) に実装する必要があるため、可能であれば分散ソリューションを探しています。進め方や便利な方法に関する情報は、非常に役立ちます。前もって感謝します！DataFrame2DataFrame1DataFrame3DataFrame1

入力: DataFrame1 (contract_id と最大 4 人の顧客が関連付けられています)

contract_id, cust1_id, cust2_id, cust3_id, cust4_id
500001,100000001,100000002,100000003,100000004
500305,100000001,100000002,100000007
500303,100000021
500702,110000045
500304,100000021,100000051,120000051
503001,540000012,510000012,500000002,510000002
503051,880000045

入力：DataFrame2（顧客マスタ参照情報）

cust_id,date_of_birth
100000001,1988-11-04
100000002,1955-11-16
100000003,1980-04-14
100000004,1980-09-26
100000007,1942-03-07
100000021,1964-06-22
100000051,1920-03-12
120000051,1973-11-17
110000045,1955-11-16
880000045,1980-04-14
540000012,1980-09-26
510000012,1973-03-15
500000002,1958-08-18
510000002,1942-03-07

出力: DataFrame3

contract_id, cust1_id, cust2_id, cust3_id, cust4_id, cust1_dob, cust2_dob, cust3_dob, cust4_dob 
500001,100000001,100000002,100000003,100000004,1988-11-04,1955-11-16,1980-04-14,1980-09-26
500305,100000001,100000002,100000007,         ,1988-11-04,1955-11-16,1942-03-07
500303,100000021,         ,         ,         ,1964-06-22
500702,110000045          ,         ,         ,1955-11-16
500304,100000021,100000051,120000051,         ,1964-06-22,1920-03-12,1973-11-17
503001,540000012,510000012,500000002,510000002,1980-09-26,1973-03-15,1958-08-18,1942-03-07
503051,880000045          ,         ,         ,1980-04-14

scala - [Spark SQL]: 2 つの DataFrame が与えられ、新しい DataFrame を作成するルックアップ機能

出力: DataFrame3

1 に答える 1

Related

Reference