performance - Redshift EXCEPT は LEFT JOIN よりもはるかに遅い

Question

ステージングテーブル (「新しいデータ」) を別のテーブル (「既存のデータ」) と比較して、追加/変更/削除された行、および最終的にアップサートを識別しようとしています。これはコストのかかる操作です。大規模なデータセットでの完全な差分です。構文を明確にするためにコマンドを使用したかったのEXCEPTですが、パフォーマンスに深刻な問題があり、 a のLEFT JOIN方がはるかに優れていることがわかりました。

2 つのテーブルの行数はほぼ同じで、スキーマも同じです (ほとんどの場合、「2 番目の」テーブルには追加のcreated_date列があります)。

どちらも共有distkey(date)し、sortkey(date, id1, id2); EXCEPTオプティマイザーを支援するために、ステートメント内で「正しい」順序で列を指定しています。

テストサイズのデータのサブセットに対するそれぞれのクエリプランを以下に示します。

explain
select date, id1, id2, id3, value, attr1, attr2, attr3 from new_data
except select date, id1, id2, id3, value, attr1, attr2, attr3 from existing_data;

XN SetOp Except  (cost=1000002817944.78..1000003266822.61 rows=1995013 width=1637)
  ->  XN Sort  (cost=1000002817944.78..1000002867820.09 rows=19950126 width=1637)
        Sort Key: date, id1, id2, id3, value, attr1, attr2, attr3
        ->  XN Append  (cost=0.00..399002.52 rows=19950126 width=1637)
              ->  XN Subquery Scan "*SELECT* 1"  (cost=0.00..199501.26 rows=9975063 width=1637)
                    ->  XN Seq Scan on new_data  (cost=0.00..99750.63 rows=9975063 width=1637)
              ->  XN Subquery Scan "*SELECT* 2"  (cost=0.00..199501.26 rows=9975063 width=1636)
                    ->  XN Seq Scan on existing_data  (cost=0.00..99750.63 rows=9975063 width=1636)

私のはるかに醜いものと比較してくださいLEFT JOIN

explain
select t1.* from new_data t1 
left outer join existing_data t2 on     
    t1.date = t2.date
    and t1.id1 = t2.id1
    and coalesce(t1.id2, -1) = coalesce(t2.id2, -1)
    and coalesce(t1.id3, -1) = coalesce(t2.id3, -1)
    and coalesce(t1.value, -1) = coalesce(t2.value, -1) 
    and coalesce(t1.attr1, '') = coalesce(t2.attr1, '')
    and coalesce(t1.attr2, '') = coalesce(t2.attr2, '')
    and coalesce(t1.attr3, '') = coalesce(t2.attr3, '')
where t2.id1 is null;

XN Merge Left Join DS_DIST_NONE  (cost=0.00..68706795.68 rows=9975063 width=1637)
  Merge Cond: (("outer".date = "inner".date) AND (("outer".id1)::bigint = "inner".id1))
  Join Filter: (((COALESCE("outer".id2, -1))::bigint = COALESCE("inner".id2, -1::bigint)) AND ((COALESCE("outer".id3, -1))::bigint = COALESCE("inner".id3, -1::bigint)) AND ((COALESCE("outer".value, -1::numeric))::double precision = COALESCE("inner".value, -1::double precision)) AND ((COALESCE("outer".attr1, ''::character varying))::text = (COALESCE("inner".attr1, ''::character varying))::text) AND ((COALESCE("outer".attr2, ''::character varying))::text = (COALESCE("inner".attr2, ''::character varying))::text) AND ((COALESCE("outer".attr3, ''::character varying))::text = (COALESCE("inner".attr3, ''::character varying))::text))
  Filter: ("inner".id1 IS NULL)
  ->  XN Seq Scan on new_data t1  (cost=0.00..99750.63 rows=9975063 width=1637)
  ->  XN Seq Scan on existing_data t2  (cost=0.00..99750.63 rows=9975063 width=1636)

クエリのコストは1000003266822.61vs68706795.68です。クエリ間で比較することは想定されていませんが、実行時間で証明されています。ステートメントがhereEXCEPTよりもはるかに遅い理由は何ですか?LEFT JOIN

performance - Redshift EXCEPT は LEFT JOIN よりもはるかに遅い

1 に答える 1

Related

Reference