python - pyspark データフレーム、グループ化、および列の分散の計算

Question

pyspark データフレームをグループ化し、特定の列の分散を計算したいと思います。平均の場合、これは非常に簡単で、次のように実行できます

from pyspark.sql import functions as func
AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect()

ただし、差異については、関数サブモジュールに集計関数がないようです（これは非常に一般的な操作であるため、理由も疑問に思っています）

score 3 · Accepted Answer

できることは、データフレームをRDDオブジェクトに変換してから、提供された分散関数をRDDに使用することです。

df1 = df.groupby('country').agg(func.avg('clicks').alias('avg_clicks'))
rdd = df1.rdd
rdd.variance()

2 に答える 2