scala - 重複する値を含むデータフレームの n 行をマージする

Question

以下のようなデータフレームがあります

Id    linkedIn
1     [l1,l2]
2     [l5,l6,l3]
3     [l4,l5]
4     [l8,l10]
5     [l7,l9,l1]

行 1 と 5 に共通の l1 がある場合、これら 2 つを Id=1 の 1 つの行としてマージする必要があります。同様に、行 2 と 3 には共通の l5 があるため、これら 2 つを Id=2 の 1 つの行としてマージする必要があり、行 4 は他の行と重複していないため変更しないでください。

出力を以下のようにしたい

Id    linkedIn
1     [l1,l2,l7,l9]
2     [l4,l5,l6,l3]
4     [l8,l10]

私はspark 2.3を使用しています

score 1 · Accepted Answer

2 行の共通性については、以下のコードを試すことができます。

val df = Seq(
  (1,Seq("l1","l2")),
  (2,Seq("l5","l6","l3")),
  (3,Seq("l4","l5")),
  (4,Seq("l8","l10")),
  (5,Seq("l7","l9","l1")),
  (6,Seq("l20","l10","l1"))
).toDF("id","values")

val df2 = df.select('id,explode('values).as("value"))
val df3 = df2.join(df2,"value").toDF("value","id","id2")
val df4 = df3.groupBy('id).agg(hash(collect_set('id2)).as("hash"))
val df5 = df2.join(df4,"id").groupBy('hash).agg(collect_set('value).as("values"))
val df6 = df5.join(df4.groupBy('hash).agg(min('id).as("id")),"hash").select('id,'values).orderBy('id)
df6.show()

出力：

+---+----------------+
| id|          values|
+---+----------------+
|  1|[l7, l9, l2, l1]|
|  2|[l4, l3, l6, l5]|
|  4|       [l8, l10]|
+---+----------------+

scala - 重複する値を含むデータフレームの n 行をマージする

2 に答える 2

Related

Reference