sql - すべてのレコードの中央値を取得する方法は？

Question

SQL Serverには中央値関数がないため、このすばらしい提案を使用しています。

https://stackoverflow.com/a/2026609/117700

これはデータセット全体の中央値を計算しますが、レコードごとの中央値が必要です。

私のデータセットは次のとおりです。

+-----------+-------------+
| client_id | TimesTested |
+-----------+-------------+
|    214220 |           1 |
|    215425 |           1 |
|    212839 |           4 |
|    215249 |           1 |
|    210498 |           3 |
|    110655 |           1 |
|    110655 |           1 |
|    110655 |          12 |
|    215425 |           4 |
|    100196 |           1 |
|    110032 |           1 |
|    110032 |           1 |
|    101944 |           3 |
|    101232 |           2 |
|    101232 |           1 |
+-----------+-------------+

これが私が使用しているクエリです：

select client_id,  
    (
    SELECT
    (
     (SELECT MAX(TimesTested ) FROM
       (SELECT TOP 50 PERCENT t.TimesTested 
       FROM counted3 t 
       where t.timestested>1 
       and CLIENT_ID=t.CLIENT_ID 
       ORDER BY t.TimesTested ) AS BottomHalf)
     +
     (SELECT MIN(TimesTested ) FROM
       (SELECT TOP 50 PERCENT t.TimesTested 
       FROM counted3 t 
       where t.timestested>1 
       and CLIENT_ID=t.CLIENT_ID 
       ORDER BY t.TimesTested DESC) AS TopHalf)
    ) / 2 AS Median
    ) TotalAvgTestFreq
from counted3 

group by client_id

しかし、それは私の面白いデータを与えています：

+-----------+------------------+
| client_id | median???????????|
+-----------+------------------+
|    100007 |               84 |
|    100008 |               84 |
|    100011 |               84 |
|    100014 |               84 |
|    100026 |               84 |
|    100027 |               84 |
|    100028 |               84 |
|    100029 |               84 |
|    100042 |               84 |
|    100043 |               84 |
|    100071 |               84 |
|    100072 |               84 |
|    100074 |               84 |
+-----------+------------------+

すべてのclient_idの中央値を取得できますか？

私は現在、アーロンのサイトからこの素晴らしいクエリを使用しようとしています：

select c3.client_id,(
    SELECT AVG(1.0 * TimesTested ) median
    FROM
    (
        SELECT o.TimesTested , 
        rn = ROW_NUMBER() OVER (ORDER BY o.TimesTested ), c.c
        FROM counted3 AS o
        CROSS JOIN (SELECT c = COUNT(*) FROM counted3) AS c
        where count>1
    ) AS x
    WHERE rn IN ((c + 1)/2, (c + 2)/2)
    ) a
    from counted3 c3
    group by c3.client_id

残念ながら、Richardthekiwiが指摘しているように：

これは単一の中央値に関するものですが、この質問はパーティションごとの中央値に関するものです

counted3パーティションごとの中央値を取得するために参加する方法を知りたいですか？>

score 1 · Accepted Answer

これを試して：

select client_id,  
    (
    SELECT
    (
     (SELECT MAX(testfreq) FROM
       (SELECT TOP 50 PERCENT t.testfreq 
       FROM counted3 t 
       where t.timestested>1 
       and c3.CLIENT_ID=t.CLIENT_ID 
       ORDER BY t.testfreq) AS BottomHalf)
     +
     (SELECT MIN(testfreq) FROM
       (SELECT TOP 50 PERCENT t.testfreq 
       FROM counted3 t 
       where t.timestested>1 
       and c3.CLIENT_ID=t.CLIENT_ID 
       ORDER BY t.testfreq DESC) AS TopHalf)
    ) / 2 AS Median
    ) TotalAvgTestFreq
from counted3 c3

group by client_id

c3エイリアスを外部CLIENT_ID参照と外部テーブルに追加しました。

score 1 · Accepted Answer

注：testFreqがintorbigintタイプの場合、平均を取る前にCASTする必要があります。そうしないと、整数除算が得られます。たとえば(2+5)/2 => 3、2と5がレコードの中央値である場合などAVG(Cast(testfreq as float))です。

select client_id, avg(testfreq) median_testfreq
from
(
    select client_id,
           testfreq,
           rn=row_number() over (partition by CLIENT_ID
                                 order by testfreq),
           c=count(testfreq) over (partition by CLIENT_ID)
    from tbk
    where timestested>1
) g
where rn in (round(c/2,0),c/2+1)
group by client_id;

中央値は、ODD行数の中央レコード、または偶数行の2つの中央レコードの平均のいずれかとして検出されます。rn in (round(c/2,0),c/2+1)これは、必要な1つまたは2つのレコードを選択する条件によって処理されます。

sql - すべてのレコードの中央値を取得する方法は？

2 に答える 2

Related

Reference