11

日付のグループを識別し、グループのサイズを測定する関数を作成しようとしています。

今までPythonで手続き的にこれを行ってきましたが、SQLに移行したいと思います。

たとえば、リスト

Bill 01/01/2011 
Bill 02/01/2011 
Bill 03/01/2011 
Bill 05/01/2011 
Bill 07/01/2011 

次のように新しいテーブルに出力する必要があります。

Bill 01/01/2011  3 
Bill 02/01/2011  3 
Bill 03/01/2011  3 
Bill 05/01/2011  1 
Bill 07/01/2011  1

理想的には、これは週末と祝日も考慮できるはずです - 私のテーブルの日付は月曜日から金曜日までです (これは、新しい営業日のテーブルを作成し、順番に番号を付けることで解決できると思います)。職場の誰かが私に CTE を試すように勧めました。私はこれにかなり慣れていないので、誰かが提供できるガイダンスをいただければ幸いです! ありがとう。

4

2 に答える 2

22

これは、ウィンドウ関数をうまく適用することで実現できます。次の点を考慮してください。

select name, date, row_number() over (partition by name order by date)
from t

これにより、行番号が追加されます。この例では、単純に 1、2、3、4、5 になります。ここで、日付との差を取ると、グループの定数値が得られます。

select name, date,
       dateadd(d, - row_number() over (partition by name order by date), date) as val
from t

最後に、順番にグループの数が必要です。グループ識別子も追加します (たとえば、最後の 2 つを区別するため)。

select name, date,
       count(*) over (partition by name, val) as NumInSeq,
       dense_rank() over (partition by name order by val) as SeqID
from (select name, date,
             dateadd(d, - row_number() over (partition by name order by date), date) as val
      from t
     ) t

なぜか平日と休日の部分が抜けていました。このソリューションはその問題を解決しません。

于 2012-07-10T14:39:42.973 に答える
7

次のクエリは、週末と休日を考慮しています。クエリには、その場で休日を含めるための規定がありますが、クエリを明確にするために、実際のテーブルに休日を具体化しました。

CREATE TABLE tx
    (n varchar(4), d date);

INSERT INTO tx
    (n, d)
VALUES
    ('Bill', '2006-12-29'), -- Friday    
    -- 2006-12-30 is Saturday
    -- 2006-12-31 is Sunday

    -- 2007-01-01 is New Year's Holiday    
    ('Bill', '2007-01-02'), -- Tuesday
    ('Bill', '2007-01-03'), -- Wednesday
    ('Bill', '2007-01-04'), -- Thursday
    ('Bill', '2007-01-05'), -- Friday    
    -- 2007-01-06 is Saturday
    -- 2007-01-07 is Sunday

    ('Bill', '2007-01-08'), -- Monday
    ('Bill', '2007-01-09'), -- Tuesday

    ('Bill', '2012-07-09'), -- Monday
    ('Bill', '2012-07-10'), -- Tuesday
    ('Bill', '2012-07-11'); -- Wednesday

create table holiday(d date);
insert into holiday(d) values
('2007-01-01');


/* query should return 7 consecutive good 
   attendance(from December 29 2006 to January 9 2007) */    
/* and 3 consecutive attendance from July 7 2012 to July 11 2012. */

クエリ:

with first_date as
(
    -- get the monday of the earliest date
    select dateadd( ww, datediff(ww,0,min(d)), 0 ) as first_date 
    from tx 
)
,shifted as
(
    select 
        tx.n, tx.d,                     
        diff = datediff(day, fd.first_date, tx.d) 
                   - (datediff(day, fd.first_date, tx.d)/7 * 2)             
    from tx
    cross join first_date fd
    union
    select 
        xxx.n, h.d,             
        diff = datediff(day, fd.first_date, h.d) 
                   - (datediff(day, fd.first_date, h.d)/7 * 2) 
    from holiday h 
    cross join first_date fd
    cross join (select distinct n from tx) as xxx
)
,grouped as
(
    select *, grp = diff - row_number() over(partition by n order by d)
    from shifted
)
select 
    d, n, dense_rank() over (partition by n order by grp) as nth_streak
    ,count(*) over (partition by n, grp) as streak
from grouped
where d not in (select d from holiday)  -- remove the holidays

出力:

|          D |    N | NTH_STREAK | STREAK |
-------------------------------------------
| 2006-12-29 | Bill |          1 |      7 |
| 2007-01-02 | Bill |          1 |      7 |
| 2007-01-03 | Bill |          1 |      7 |
| 2007-01-04 | Bill |          1 |      7 |
| 2007-01-05 | Bill |          1 |      7 |
| 2007-01-08 | Bill |          1 |      7 |
| 2007-01-09 | Bill |          1 |      7 |
| 2012-07-09 | Bill |          2 |      3 |
| 2012-07-10 | Bill |          2 |      3 |
| 2012-07-11 | Bill |          2 |      3 |

ライブ テスト: http://www.sqlfiddle.com/#!3/815c5/1

クエリの主なロジックは、すべての日付を 2 日前にシフトすることです。これは、日付を 7 で割って 2 倍し、元の数値から引くことによって行われます。たとえば、特定の日付が 15 日の場合、これは 15/7 * 2 == 4 として計算されます。元の数から 4 を引くと、15 - 4 == 11 になります。15 は 11 日目になります。同様に、8 日目は 6 日目になります。8 - (8/7 * 2) == 6.

                  Weekends are not in attendance(e.g. 6,7,13,14)
 1  2  3  4  5     6  7
 8  9 10 11 12    13 14
15

すべての平日の数値に計算を適用すると、次の値が得られます。

 1  2  3  4  5    
 6  7  8  9 10    
11

休日の場合は、連続性を簡単に判断できるように、出欠をスロットに入れる必要があります。その後、最終的なクエリからそれらを削除するだけです。上記の出席は、11 連続の良好な出席をもたらします。

クエリ ロジックの詳細な説明はこちら: http://www.ienablemuch.com/2012/07/monitoring-perfect-attendance.html

于 2012-07-11T08:04:56.280 に答える