4

pyspark データフレームをグループ化し、特定の列の分散を計算したいと思います。平均の場合、これは非常に簡単で、次のように実行できます

from pyspark.sql import functions as func
AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect()

ただし、差異については、関数サブモジュールに集計関数がないようです(これは非常に一般的な操作であるため、理由も疑問に思っています)

4

2 に答える 2

3

できることは、データフレームをRDDオブジェクトに変換してから、提供された分散関数をRDDに使用することです。

df1 = df.groupby('country').agg(func.avg('clicks').alias('avg_clicks'))
rdd = df1.rdd
rdd.variance()
于 2015-08-12T13:40:12.510 に答える