ID でリンクされた 2 つのテーブルがあります。
item_tbl (id)
link_tbl (item_id)
item_tbl
に一致する行がないのレコードがいくつかありますlink_tbl
。それらの量をカウントする選択は次のようになります。
SELECT COUNT(*)
FROM link_tbl lnk LEFT JOIN item_tbl itm ON lnk.item_id=itm.id
WHERE itm.id IS NULL
これらの孤立したレコード (他のテーブルに一致しないレコード) を削除したいのですlink_tbl
が、考えられる唯一の方法は次のとおりです。
DELETE FROM link_tbl lnk
WHERE lnk.item_id NOT IN (SELECT itm.id FROM item_tbl itm)
の16,844,347 個の孤立したレコードに3,033,811 個の262,086,253
個のレコードがあります。
サーバーには 4GB の RAM と 8 コアの CPU が搭載されています。link_tbl
item_tbl
link_tbl
EXPLAIN DELETE FROM link_tbl lnk
WHERE lnk.item_id NOT IN (SELECT itm.id FROM item_tbl itm)
戻り値:
Delete on link lnk (cost=0.00..11395249378057.98 rows=131045918 width=6)
-> Seq Scan on link lnk (cost=0.00..11395249378057.98 rows=131045918 width=6)
Filter: (NOT (SubPlan 1))
SubPlan 1
-> Materialize (cost=0.00..79298.10 rows=3063207 width=4)
-> Seq Scan on item itm (cost=0.00..52016.07 rows=3063207 width=4)
質問は次のとおりです。
- から孤立したレコードを削除するより良い方法はあります
link_tbl
か? 上記の説明はどのくらい正確ですか、またはそれらのレコードを削除するのにどれくらいの時間がかかりますか?
- 編集: Erwin Brandstetter のコメントに従って修正されました。
- 編集: PostgreSql のバージョンは 9.1 です
- 編集: postgresql.config の一部
- 共有バッファ = 368MB
- temp_buffers = 32MB
- work_mem = 32MB
- Maintenance_work_mem = 64MB
- max_stack_depth = 6MB
- fsync = オフ
- synchronous_commit = オフ
- full_page_writes = オフ
- wal_buffers = 16MB
- wal_writer_delay = 5000ms
- commit_delay = 10
- commit_siblings = 10
- effective_cache_size = 1600MB
- 編集: Erwin Brandstetter のコメントに従って修正されました。
解像度:
みなさんアドバイスありがとうございます、とても参考になりました。最終的に Erwin Brandstetter https://stackoverflow.com/a/15959896/1331340のアドバイスによる削除を使用しましたが、少し調整しました。
DELETE FROM link_tbl lnk
WHERE lnk.item_id BETWEEN 0 AND 10000
AND lnk.item_id NOT IN (SELECT itm.id FROM item itm
WHERE itm.id BETWEEN 0 AND 10000)
NOT IN と NOT EXISTS の結果を比較したところ、出力は以下のようになりましたが、DELETE の代わりに COUNT を使用しましたが、これは同じであるはずです (つまり、相対的な比較のためです)。
EXPLAIN ANALYZE SELECT COUNT(*)
FROM link_tbl lnk
WHERE lnk.item_id BETWEEN 0 AND 20000
AND lnk.item_id NOT IN (SELECT itm.id
FROM item_tbl itm
WHERE itm.id BETWEEN 0 AND 20000);
QUERY PLAN
Aggregate (cost=6002667.56..6002667.57 rows=1 width=0) (actual time=226817.086..226817.088 rows=1 loops=1)
-> Seq Scan on link_tbl lnk (cost=1592.50..5747898.65 rows=101907564 width=0) (actual time=206.029..225289.570 rows=566625 loops=1)
Filter: ((item_id >= 0) AND (item_id <= 20000) AND (NOT (hashed SubPlan 1)))
SubPlan 1
-> Index Scan using item_tbl_pkey on item_tbl itm (cost=0.00..1501.95 rows=36221 width=4) (actual time=0.056..99.266 rows=17560 loops=1)
Index Cond: ((id >= 0) AND (id <= 20000))
Total runtime: 226817.211 ms
EXPLAIN ANALYZE SELECT COUNT(*)
FROM link_tbl lnk WHERE lnk.item_id>0 AND lnk.item_id<20000
AND NOT EXISTS (SELECT 1 FROM item_tbl itm WHERE itm.id=lnk.item_id);
QUERY PLAN
Aggregate (cost=8835772.00..8835772.01 rows=1 width=0)
(actual time=1209235.133..1209235.135 rows=1 loops=1)
-> Hash Anti Join (cost=102272.16..8835771.99 rows=1 width=0)
(actual time=19315.170..1207900.612 rows=566534 loops=1)
Hash Cond: (lnk.item_id = itm.id)
-> Seq Scan on link_tbl lnk (cost=0.00..5091076.55 rows=203815128 width=4) (actual time=0.016..599147.604 rows=200301872 loops=1)
Filter: ((item_id > 0) AND (item_id < 20000))
-> Hash (cost=52016.07..52016.07 rows=3063207 width=4) (actual time=19313.976..19313.976 rows=3033811 loops=1)
Buckets: 131072 Batches: 4 Memory Usage: 26672kB
-> Seq Scan on item_tbl itm (cost=0.00..52016.07 rows=3063207 width=4) (actual time=0.013..9274.158 rows=3033811 loops=1)
Total runtime: 1209260.228 ms
NOT EXISTS は 5 倍遅くなりました。
実際の削除は心配したほど時間はかからず、5回に分けて削除できました(10000-20000、20000-100000、100000-200000、200000-1000000、1000000-1755441)。最初に、max item_id を見つけたので、テーブルの半分を通過するだけで済みました。
NOT IN または EXISTS を範囲なしで (select count を使用して) 試したところ、終了すらしませんでした。夜中に実行しても、朝も実行されていました。
wildplasser の回答https://stackoverflow.com/a/15988033/1331340から USING を使用して DELETE を探していたと思いますが、遅すぎました。
DELETE FROM one o
USING (
SELECT o2.id
FROM one o2
LEFT JOIN two t ON t.one_id = o2.id
WHERE t.one_id IS NULL
) sq
WHERE sq.id = o.id
;