python - Pyspark データフレームの値 (リスト) を比較する

翻译自：https://stackoverflow.com/questions/58182347 2019-10-01T09:56:24.803

94 次

list_id 列の 2 つの df1 df2 データフレームを比較したいと思います。

df1 = 
+---------+
|  list_id|
+---------+
|[1, 2, 3]|
|[4, 5, 6]|
|[7, 8, 9]|
+---------+
df2 =
+------------+
|     list_id|
+------------+
| [10, 3, 11]|
|[12, 13, 14]|
| [15, 6, 16]|
+------------+

望ましい結果は次のとおりです。

df2 =
+-------------------+
|            list_id|
+-------------------+
| [1, 2, 3, 10, 11] |
| [4, 5, 6, 15, 16] |
| [7, 8, 9]         |
| [12, 13, 14]      |
+-------------------+

私の目的は、交点が空でないリストを連結し、pyspark を使用して他のリストをそのまま保持することです。

注: データフレームが非常に大きいため、Spark Sql との結合を使用することはできません。

python - Pyspark データフレームの値 (リスト) を比較する

1 に答える 1

Related

Reference