apache-spark - 重複レコードはpysparkの他の一時テーブルに移動します

翻译自：https://stackoverflow.com/questions/58066678 2019-09-23T16:34:11.813

81 次

私はPysparkを使用しています

私の入力データは以下のようになります。

 COL1|COL2
|TYCO|130003|
|EMC |120989|
|VOLVO|102329|
|BMW|130157|
|FORD|503004|
|TYCO|130003|

私は DataFrame を作成し、以下のように重複をクエリしています。

from pyspark.sql import Row
from pyspark.sql import SparkSession
spark = SparkSession \
     .builder \
     .appName("Test") \
     .getOrCreate()

data = spark.read.csv("filepath")

data.registerTempTable("data")
spark.sql("SELECT count(col2)CNT, col2 from data GROUP BY col2 ").show()

これにより正しい結果が得られますが、別の一時テーブルで重複する値を取得できます。

output data in Temp1

+----+------+
|   1|120989|
|   1|102329|
|   1|130157|
|   1|503004|
+----+------+

temp2 の出力データ

+----+------+
|   2|130003|
+----+------+

apache-spark - 重複レコードはpysparkの他の一時テーブルに移動します

1 に答える 1

Related

Reference