2

標準偏差分析は、外れ値を見つけるのに役立つ方法です。このクエリの結果を組み込む方法はありますか (平均から離れた 4 番目の標準偏差の値を見つける)...

SELECT (AVG(weight_pounds) + STDDEV(weight_pounds) * 4) as high FROM [publicdata:samples.natality];

結果 = 12.721342001626912

...平均から 4 標準偏差を超える体重で生まれた赤ちゃんが最も多い州と日付に関する情報を生成する別のクエリに変換しますか?

SELECT state, year, month ,COUNT(*) AS outlier_count
 FROM [publicdata:samples.natality]
WHERE
  (weight_pounds > 12.721342001626912)
AND
  (state != '' AND state IS NOT NULL)
GROUP BY state, year, month 
ORDER BY outlier_count DESC;

結果:

Row  state   year    month   outlier_count    
1    MD  1990    12  22   
2    NY  1989    10  17   
3    CA  1991    9   14

本質的に、これを 1 つのクエリに結合することは素晴らしいことです。

4

1 に答える 1

6

これにはJOINを悪用することができます(したがって、パフォーマンスが低下します)。

SELECT n.state, n.year, n.month ,COUNT(*) AS outlier_count
FROM (
  SELECT state, year, month, weight_pounds, 1 as key 
  FROM [publicdata:samples.natality]) as n
JOIN (
  SELECT (AVG(weight_pounds) + STDDEV(weight_pounds) * 4) as giant_baby, 
          1 as key 
  FROM [publicdata:samples.natality]) as o
ON n.key = o.key
WHERE
  (n.weight_pounds > o.giant_baby)
AND
  (n.state != '' AND n.state IS NOT NULL)
GROUP BY n.state, n.year, n.month 
ORDER BY outlier_count DESC;
于 2012-09-21T17:12:16.803 に答える