sql-server - CTE での T-SQL のパフォーマンスの低下

Question

SQL Server の共通テーブル式に関するパフォーマンスに関する質問があります。私たちの開発者チームでは、クエリを作成するときにチェーン CTE を多数使用しています。現在、パフォーマンスがひどいクエリに取り組んでいます。しかし、チェーンの途中でその CTE までのすべてのレコードを代わりに一時テーブルに挿入し、続行してその一時テーブルから選択すると、パフォーマンスが大幅に向上することがわかりました。ここで、このタイプの変更がこの特定のクエリにのみ適用されるかどうか、および以下に示す 2 つのケースのパフォーマンスが大きく異なる理由を理解するための助けが必要です。それとも、チームで CTE を使いすぎて、このケースから学ぶことで一般的にパフォーマンスを向上させることができるでしょうか?

ここで何が起こっているのか正確に説明してください...

コードは完成しており、SQL Server 2008 およびおそらく 2005 でも実行できるようになります。1 つの部分がコメントアウトされています。私の考えでは、どちらか一方をコメントアウトすることで 2 つのケースを切り替えることができます。ブロックコメントをどこに置くかを見ることができます。私はこれらの場所--block comment hereを--end block comment here

コメントされていないデフォルトのパフォーマンスが遅いケースです。はい、どうぞ：

--Declare tables to use in example.
CREATE TABLE #Preparation 
(
    Date DATETIME NOT NULL
    ,Hour INT NOT NULL
    ,Sales NUMERIC(9,2)
    ,Items INT
);

CREATE TABLE #Calendar
(
    Date DATETIME NOT NULL
)

CREATE TABLE #OpenHours
(
    Day INT NOT NULL,
    OpenFrom TIME NOT NULL,
    OpenTo TIME NOT NULL
);

--Fill tables with sample data.
INSERT INTO #OpenHours (Day, OpenFrom, OpenTo)
VALUES
    (1, '10:00', '20:00'),
    (2, '10:00', '20:00'),
    (3, '10:00', '20:00'),
    (4, '10:00', '20:00'),
    (5, '10:00', '20:00'),
    (6, '10:00', '20:00'),
    (7, '10:00', '20:00')

DECLARE @CounterDay INT = 0, @CounterHour INT = 0, @Sales NUMERIC(9, 2), @Items INT;

WHILE @CounterDay < 365
BEGIN
    SET @CounterHour = 0;
    WHILE @CounterHour < 5
    BEGIN
        SET @Items = CAST(RAND() * 100 AS INT);
        SET @Sales = CAST(RAND() * 1000 AS NUMERIC(9, 2));
        IF @Items % 2 = 0
        BEGIN
            SET @Items = NULL;
            SET @Sales = NULL;
        END

        INSERT INTO #Preparation (Date, Hour, Items, Sales)
        VALUES (DATEADD(DAY, @CounterDay, '2011-01-01'), @CounterHour + 13, @Items, @Sales);

        SET @CounterHour += 1;
    END
    INSERT INTO #Calendar (Date) VALUES (DATEADD(DAY, @CounterDay, '2011-01-01'));
    SET @CounterDay += 1;
END

--Here the query starts.
;WITH P AS (
    SELECT DATEADD(HOUR, Hour, Date) AS Hour
        ,Sales
        ,Items
    FROM #Preparation
),
O AS (
        SELECT DISTINCT DATEADD(HOUR, SV.number, C.Date) AS Hour
        FROM #OpenHours AS O
            JOIN #Calendar AS C ON O.Day = DATEPART(WEEKDAY, C.Date)
            JOIN master.dbo.spt_values AS SV ON SV.number BETWEEN DATEPART(HOUR, O.OpenFrom) AND DATEPART(HOUR, O.OpenTo)
),
S AS (
    SELECT O.Hour, P.Sales, P.Items
    FROM O
        LEFT JOIN P ON P.Hour = O.Hour
)

--block comment here case 1 (slow performing)
--With this technique it takes about 34 seconds.
,N AS (
        SELECT  
            A.Hour
            ,A.Sales AS SalesOrg
            ,CASE WHEN COALESCE(B.Sales, C.Sales, 1) < 0
                THEN 0 ELSE COALESCE(B.Sales, C.Sales, 1) END AS Sales
            ,A.Items AS ItemsOrg
            ,COALESCE(B.Items, C.Items, 1) AS Items
        FROM S AS A
        OUTER APPLY (SELECT TOP 1 *
                     FROM S
                     WHERE Hour <= A.Hour
                        AND Sales IS NOT NULL
                        AND DATEDIFF(DAY, Hour, A.Hour) = 0                      
                     ORDER BY Hour DESC) B
        OUTER APPLY (SELECT TOP 1 *
                     FROM S
                     WHERE Sales IS NOT NULL
                        AND DATEDIFF(DAY, Hour, A.Hour) = 0
                     ORDER BY Hour) C
    )
--end block comment here case 1 (slow performing)

/*--block comment here case 2 (fast performing)
--With this technique it takes about 2 seconds.
SELECT * INTO #tmpS FROM S;

WITH
N AS (
        SELECT  
            A.Hour
            ,A.Sales AS SalesOrg
            ,CASE WHEN COALESCE(B.Sales, C.Sales, 1) < 0
                THEN 0 ELSE COALESCE(B.Sales, C.Sales, 1) END AS Sales
            ,A.Items AS ItemsOrg
            ,COALESCE(B.Items, C.Items, 1) AS Items
        FROM #tmpS AS A
        OUTER APPLY (SELECT TOP 1 *
                     FROM #tmpS
                     WHERE Hour <= A.Hour
                        AND Sales IS NOT NULL
                        AND DATEDIFF(DAY, Hour, A.Hour) = 0                      
                     ORDER BY Hour DESC) B
        OUTER APPLY (SELECT TOP 1 *
                     FROM #tmpS
                     WHERE Sales IS NOT NULL
                        AND DATEDIFF(DAY, Hour, A.Hour) = 0
                     ORDER BY Hour) C
    )
--end block comment here case 2 (fast performing)*/
SELECT * FROM N ORDER BY Hour


IF OBJECT_ID('tempdb..#tmpS') IS NOT NULL DROP TABLE #tmpS;

DROP TABLE #Preparation;
DROP TABLE #Calendar;
DROP TABLE #OpenHours;

最後のステップで私が何をしているのか理解したい場合は、ここで SO の質問があります。

私の場合、ケース 1 は約 34 秒、ケース 2 は約 2 秒かかります。違いは、ケース 2 では S からの結果を一時テーブルに格納することです。ケース 1 では、次の CTE で S を直接使用します。

score 13 · Accepted Answer

ACTEは基本的に使い捨てのビューです。CTEコードをFROMテーブル式として句に入れるだけでクエリが速くなることはほとんどありません。

あなたの例では、本当の問題は私が信じている日付関数です。

最初の（遅い）ケースでは、すべての行に対して日付関数を実行する必要があります。

2 番目の (より高速な) ケースでは、一度実行されてテーブルに格納されます。

これは、関数派生フィールドで何らかのロジックを実行しない限り、通常はそれほど目立ちません。あなたの場合、ORDER BYonを実行していますがHour、これは非常にコストがかかります。2番目の例では、フィールドの単純な並べ替えですが、最初の例では、各行に対してその関数を実行し、THEN 並べ替えを行っています。

CTE に関するより詳細な情報については、DBA.SE に関するこの質問を参照してください。

score 6 · Accepted Answer

CTE は単なる構文のショートカットです。その CTE は結合で実行 (および再実行) されます。#temp を使用すると、一度評価され、結果が結合で再利用されます。

ドキュメントは誤解を招くものです。

MSDN_CTE

共通テーブル式 (CTE) は、一時的な結果セットと考えることができます。

この記事はそれをよりよく説明します

PapaCTE記事

CTE は、(ビューのように) T-SQL をはるかに読みやすくするため、このタイプのシナリオに適していますが、同じバッチで直後に続くクエリで複数回使用できます。もちろん、その範囲を超えて利用することはできません。さらに、CTE は言語レベルの構成要素です。つまり、SQL Server は一時テーブルまたは仮想テーブルを内部的に作成しません。CTE の基になるクエリは、直後のクエリで参照されるたびに呼び出されます。

テーブル値パラメーターを見てください

TVP

#temp のような構造ですが、オーバーヘッドはそれほど多くありません。それらは読み取り専用ですが、読み取り専用のみが必要なようです。#temp の作成とドロップはさまざまですが、低から中程度のサーバーでは 0.1 秒のヒットであり、TVP では基本的にヒットしません。

sql-server - CTE での T-SQL のパフォーマンスの低下

3 に答える 3

Related

Reference