以下のようなデータフレームがあります
Id linkedIn
1 [l1,l2]
2 [l5,l6,l3]
3 [l4,l5]
4 [l8,l10]
5 [l7,l9,l1]
行 1 と 5 に共通の l1 がある場合、これら 2 つを Id=1 の 1 つの行としてマージする必要があります。同様に、行 2 と 3 には共通の l5 があるため、これら 2 つを Id=2 の 1 つの行としてマージする必要があり、行 4 は他の行と重複していないため変更しないでください。
出力を以下のようにしたい
Id linkedIn
1 [l1,l2,l7,l9]
2 [l4,l5,l6,l3]
4 [l8,l10]
私はspark 2.3を使用しています