pyspark データフレームをグループ化し、特定の列の分散を計算したいと思います。平均の場合、これは非常に簡単で、次のように実行できます
from pyspark.sql import functions as func
AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect()
ただし、差異については、関数サブモジュールに集計関数がないようです(これは非常に一般的な操作であるため、理由も疑問に思っています)