database - Postgres ANTI-JOINにはテーブルスキャンが必要ですか？

Question

同じテーブルにANTI-JOIN（存在しないSELECT from table ... / left join table WHERE table.id IS NULL）が必要です。実際、存在しない質問を処理するためのインデックスがありますが、クエリプランナーはビットマップヒープスキャンを使用することを選択します。

テーブルには1億行あるため、ヒープスキャンを実行すると混乱します...

Postgresが指標と比較できれば、それは本当に速いでしょう。PostgresはこのANTI-JOINのテーブルにアクセスする必要がありますか？

MVCCにサービスを提供するには、ある時点でテーブルにアクセスする必要があることはわかっていますが、なぜそんなに早いのでしょうか。それ以外の何かを見逃す可能性があるため、存在しないことはテーブルによってのみ修正できますか？

score 8 · Accepted Answer

バージョンの詳細を提供する必要があります。jmzが言うように、有用なアドバイスを得るにはEXPLAINANALYZEの出力を提供します。

フランツ-それが可能かどうかを考えず、テストして知ってください。

これはv9.0です：

CREATE TABLE tl (i int, t text);
CREATE TABLE tr (i int, t text);
INSERT INTO tl SELECT s, 'text ' || s FROM generate_series(1,999999) s;
INSERT INTO tr SELECT s, 'text ' || s FROM generate_series(1,999999) s WHERE s % 3 = 0;
ALTER TABLE tl add primary key (i);
CREATE INDEX tr_i_idx ON tr (i);
ANALYSE;
EXPLAIN ANALYSE SELECT i,t FROM tl LEFT JOIN tr USING (i) WHERE tr.i IS NULL;
                                                         QUERY PLAN                                                      
-----------------------------------------------------------------------------------------------------------------------------
 Merge Anti Join  (cost=0.95..45611.86 rows=666666 width=15) (actual time=0.040..4011.970 rows=666666 loops=1)
   Merge Cond: (tl.i = tr.i)
   ->  Index Scan using tl_pkey on tl  (cost=0.00..29201.32 rows=999999 width=15) (actual time=0.017..1356.996 rows=999999 lo
   ->  Index Scan using tr_i_idx on tr  (cost=0.00..9745.27 rows=333333 width=4) (actual time=0.015..439.087 rows=333333 loop
 Total runtime: 4602.224 ms

表示される内容は、バージョンとプランナーに表示される統計によって異なります。

score 1 · Accepted Answer

私の（簡略化された）クエリ：

SELECT a.id FROM a LEFT JOIN b ON b.id = a.id WHERE b.id IS NULL ORDER BY id;

このようなクエリプランは機能します。

                                                       QUERY PLAN                                                        
-------------------------------------------------------------------------------------------------------------------------
 Merge Anti Join  (cost=0.57..3831.88 rows=128092 width=8)
   Merge Cond: (a.id = b.id)
   ->  Index Only Scan using a_pkey on a  (cost=0.42..3399.70 rows=130352 width=8)
   ->  Index Only Scan using b_pkey on b  (cost=0.15..78.06 rows=2260 width=8)
(4 rows)

ただし、plannerがより良いと考えた場合、postgresql 9.5.9がシーケンシャルスキャンに切り替わることがあります（PostgreSQLがインデックス付き列でシーケンシャルスキャンを実行する理由を参照してください）。しかし、私の場合、それは事態を悪化させました。

                                                       QUERY PLAN                                                        
-------------------------------------------------------------------------------------------------------------------------
 Merge Anti Join  (cost=405448.22..39405858.08 rows=1365191502 width=8)
   Merge Cond: (a.id = b.id)
   ->  Index Only Scan using a_pkey on a  (cost=0.58..35528317.86 rows=1368180352 width=8)
   ->  Materialize  (cost=405447.64..420391.89 rows=2988850 width=8)
         ->  Sort  (cost=405447.64..412919.76 rows=2988850 width=8)
               Sort Key: b.id
               ->  Seq Scan on b  (cost=0.00..43113.50 rows=2988850 width=8)
(7 rows)

私の（ハック）解決策は、次の方法で順次スキャンを阻止することでした。

set enable_seqscan to off;

postgresqlのドキュメントによると、これを行う適切な方法は、ALTERTABLESPACEを使用してseq_page_costを実行することです。これは、インデックス付きの列でORDER BYを使用する場合に推奨される場合がありますが、よくわかりません。https://www.postgresql.org/docs/9.1/static/runtime-config-query.html

database - Postgres ANTI-JOINにはテーブルスキャンが必要ですか？

2 に答える 2

Related

Reference