20

次のキーペア値を持つ次の 2 つの RDD があるとします。

rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]

rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]

今、それらをキー値で結合したいので、たとえば次のように返したい

ret = [ (key1, [value1, value2, value5, value6]), (key2, [value3, value4, value7]) ] 

Python または Scala を使用して spark でこれを行うにはどうすればよいですか? 1 つの方法は join を使用することですが、join はタプル内にタプルを作成します。しかし、キーと値のペアごとに 1 つのタプルのみが必要です。

4

2 に答える 2