次のキーペア値を持つ次の 2 つの RDD があるとします。
rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]
と
rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]
今、それらをキー値で結合したいので、たとえば次のように返したい
ret = [ (key1, [value1, value2, value5, value6]), (key2, [value3, value4, value7]) ]
Python または Scala を使用して spark でこれを行うにはどうすればよいですか? 1 つの方法は join を使用することですが、join はタプル内にタプルを作成します。しかし、キーと値のペアごとに 1 つのタプルのみが必要です。