sql - SQL クエリの最適化 (ネストされたサブクエリ)

Question

クエリを書く必要があります:

1980 年以前に公開された映画の平均評価と 1980 年以降に公開された映画の平均評価の差を見つけてください。 t は、1980 年前後の全体的な平均評価を計算するだけです。)

スキーマは次のとおりです。

Movie ( mID, title, year, director )
English: There is a movie with 
ID number mID, a title, a release year, and a director.

Reviewer ( rID, name )
English: The reviewer with ID number rID has a certain name.

Rating ( rID, mID, stars, ratingDate )
English: The reviewer rID gave the movie mID a 
number of stars rating (1-5) on a certain ratingDate.

以下は私が思いついたクエリです。結果は正しいですが、間違いなくあまり良いクエリではありません:

    select t1.p1-t2.p2 from
    (select avg(average) as p1  from 
    (select g.mid,g.average, year from
    (select mid, avg(stars) as average from rating
    group by mid) g, movie
    where g.mid=movie.mid) j 
    where year >= 1980) t1,

    (select avg(average) as p2  from 
    (select g.mid,g.average, year from
    (select mid, avg(stars) as average from rating
    group by mid) g, movie
    where g.mid=movie.mid) j 
    where year < 1980) t2;

以下は、私がこのクエリにたどり着いた方法です。まず、映画 ID、その映画の平均評価、映画の年を取得する次のサブクエリを作成しました。

    select g.mid,g.average, year from
    (select mid, avg(stars) as average from rating
    group by mid) g, movie
    where g.mid=movie.mid

ここで、同じサブクエリを使用して 2 つのテーブルを作成する必要があります。最初のテーブルには 1980 年以降の映画の評価の平均が含まれます。2 番目のテーブルには 1980 年以前の映画の評価の平均が含まれます。最上位のクエリでは、これら 2 つの値を減算します。

問題は、同じコードを 2 か所で複製していることです。コードの重複とパフォーマンスの観点からコードを最適化するのを手伝ってもらえますか?

score 2 · Accepted Answer

次のように重複せずに実行できます。

Select
  Avg(Case When m.Year >= 1980 Then a.stars Else Null End) -
  Avg(Case When m.Year < 1980 Then a.stars Else Null End)
From (
    Select
      mid,
      avg(stars) stars
    From 
      rating
    Group By
      mid
  ) a 
    inner join
  movie m
    on m.mid = a.mid

内部クエリをビューまたは共通テーブル式 (CTE) に移動したい場合があります。使用している dbms によっては、星を 10 進数型にキャストする必要がある場合や、すべてを整数演算で取得する場合があります。

評価テーブルのインデックスは(mid, stars)、パフォーマンスの面で役立ちます。

フィドルの例

score 1 · Accepted Answer

パントを取り、SQL Server を想定すると、いくつかのことがあります。クエリの記述方法と同様に、インデックスは非常に重要です。

一部の CREATE TABLE ステートメント

create table Movie ( mID int primary key clustered, title varchar(100), year int, director varchar(100) ) 

create table Reviewer ( rID int primary key clustered, name varchar(100) ) 

create table Rating ( rID int, mID int, stars int, ratingDate datetime , primary key clustered (rID, mID) )

Movie テーブルの mID でクラスター化し、評価テーブルの rID および mID フィールドでクラスター化しましたが、クエリには不十分です。

インデックス作成: SQL は映画のすべての評価を取得する必要があるため、Rating テーブルのより適切なクラスター化されたキーは create table Rating ( rID int, mID int, stars int, ratingDate datetime , primary key clustered (mID, rID) ) になります。

そのようなことを変更できない場合は、少なくとも mID でインデックスを作成し、星の列を含むカバリングインデックスを作成します。

次に、クエリ... いくつかの書き方があります。クエリプランの出力を確認するのが一番です。クエリを記述する 1 つの方法を次に示します。

with 
    MovieAverage as (
        select mID, movieAvgStars = avg(stars)
        from Rating
        group by mID
        ),

    Pre1980 as (
        select MovieAvgStars = avg(  movieAvgStars )
        from MovieAverage
            inner join Movie
                on MovieAverage.mID = Movie.mID
        where Movie.year < 1980
        ),

    IncAndPost1980 as (
        select MovieAvgStars = avg(  movieAvgStars )
        from MovieAverage
            inner join Movie 
                on MovieAverage.mID = Movie.mID
        where Movie.year >= 1980
        )

select IncAndPost1980.MovieAvgStars - Pre1980.MovieAvgStars
from IncAndPost1980 cross JOIN Pre1980

他にも調整方法はあると思いますが、サンプルデータ等がないと判断が難しいです。

score 0 · Accepted Answer

効率性を考慮せず、特定の DBMS を念頭に置いていない場合 (NATURAL結合と CTE の両方を備えているものはほとんどありません):

; WITH g AS
    ( SELECT mid, AVG(stars) AS average 
      FROM rating
      GROUP BY mid
    ) 
  , j AS
    ( SELECT mid, average, year 
      FROM g NATURAL JOIN movie
    )
  , t1 AS
    ( SELECT AVG(average) AS p1 
      FROM j
      WHERE year >= 1980
    )
  , t2 AS
    ( SELECT AVG(average) AS p2 
      FROM j
      WHERE year < 1980
    )
  SELECT t1.p1 - t2.p2 AS result
  FROM t1 CROSS JOIN t2 
;

sql - SQL クエリの最適化 (ネストされたサブクエリ)

3 に答える 3

Related

Reference