私は2つのテーブルを持っています-
テーブルA:1MM行、AsOfDate、Id、BId(テーブルBへの外部キー)
表B:50k行、Id、Flag、ValidFrom、ValidTo
表Aには、100のBIdにわたる2011/01/01から2011/12/31までの1日あたりの複数のレコードが含まれています。表Bには、100入札の重複しない(validfromとvalidtoの間の)複数のレコードが含まれています。
結合のタスクは、指定されたAsOfDateでBIdに対してアクティブだったフラグを返すことです。
select
a.AsOfDate, b.Flag
from
A a inner Join B b on
a.BId = b.BId and b.ValidFrom <= a.AsOfDate and b.ValidTo >= a.AsOfDate
where
a.AsOfDate >= 20110101 and a.AsOfDate <= 20111231
このクエリは、64Gbのメモリを搭載した非常にハイエンドのサーバー(+ 3Ghz)で約70秒かかります。
私はこれをテストしているので、フィールドのすべての組み合わせにインデックスがあります-無駄です。
インデックス:a.AsOfDate、a.AsOfDate + a.bId、a.bidインデックス:b.bid、b.bid + b.validfrom
以下に提案されている範囲クエリも試してみました(62秒)
VMで実行されている無料バージョンのSQLServerでのこの同じクエリは、完了するまでに最大1秒かかります。
何か案は?
Postgres 9.2
クエリプラン
QUERY PLAN
---------------------------------------------------------------------------------------
Aggregate (cost=8274298.83..8274298.84 rows=1 width=0)
-> Hash Join (cost=1692.25..8137039.36 rows=54903787 width=0)
Hash Cond: (a.bid = b.bid)
Join Filter: ((b.validfrom <= a.asofdate) AND (b.validto >= a.asofdate))
-> Seq Scan on "A" a (cost=0.00..37727.00 rows=986467 width=12)
Filter: ((asofdate > 20110101) AND (asofdate < 20111231))
-> Hash (cost=821.00..821.00 rows=50100 width=12)
-> Seq Scan on "B" b (cost=0.00..821.00 rows=50100 width=12)
分析出力については、http://explain.depesz.com/s/1c5を参照してください。