Spark 1.5 で Scala を使用しています。
2 つの DataFramesDataFrame1
とが与えられた場合、 でキーの値を検索し、結果を使用して作成しDataFrame2
たいと考えています。各行に多くのキーがあり、出力 DataFrame には、以下の出力 DataFrame に示すように、同じ順序でキーと値が設定されている必要があるため、この機能は独特です。この機能は何百万ものレコード (〜 1000 万レコード) に実装する必要があるため、可能であれば分散ソリューションを探しています。進め方や便利な方法に関する情報は、非常に役立ちます。前もって感謝します!DataFrame2
DataFrame1
DataFrame3
DataFrame1
contract_id, cust1_id, cust2_id, cust3_id, cust4_id
500001,100000001,100000002,100000003,100000004
500305,100000001,100000002,100000007
500303,100000021
500702,110000045
500304,100000021,100000051,120000051
503001,540000012,510000012,500000002,510000002
503051,880000045
入力:DataFrame2(顧客マスタ参照情報)
cust_id,date_of_birth
100000001,1988-11-04
100000002,1955-11-16
100000003,1980-04-14
100000004,1980-09-26
100000007,1942-03-07
100000021,1964-06-22
100000051,1920-03-12
120000051,1973-11-17
110000045,1955-11-16
880000045,1980-04-14
540000012,1980-09-26
510000012,1973-03-15
500000002,1958-08-18
510000002,1942-03-07
出力: DataFrame3
contract_id, cust1_id, cust2_id, cust3_id, cust4_id, cust1_dob, cust2_dob, cust3_dob, cust4_dob
500001,100000001,100000002,100000003,100000004,1988-11-04,1955-11-16,1980-04-14,1980-09-26
500305,100000001,100000002,100000007, ,1988-11-04,1955-11-16,1942-03-07
500303,100000021, , , ,1964-06-22
500702,110000045 , , ,1955-11-16
500304,100000021,100000051,120000051, ,1964-06-22,1920-03-12,1973-11-17
503001,540000012,510000012,500000002,510000002,1980-09-26,1973-03-15,1958-08-18,1942-03-07
503051,880000045 , , ,1980-04-14