postgresql - クエリ実行者 - 上のステップの開始は、下のステップの終了と重なっていません

Question

Postgres クエリプランを調べたところ、上のステップの開始時刻が下のステップの終了時刻と重なっていないことに気付きました。

このクエリのフィールド名が編集されました。

以下に示すように、クエリ実行プログラムには 2 つのステップがあります。下位ステップの「インデックススキャン」は 5730.776 (実際の時間) で終了しますが、ルートステップは 19199.316 (実際の時間) で始まります。私の質問は、 5730.776 から 19199.316 の間に何が起こったのですか?

ポストグル 9.1

explain analyze select a_id,b_id,c_id,d_id,e_id,mydate, f,sum(used) used
from report A where mydate >= '2013-05-01' and mydate  <= '2013-08-30'
group by a_id,b_id,c_id,d_id,e_id,date,f;
                                                                                                      QUERY PLAN
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
 HashAggregate  (cost=412378.59..418074.28 rows=569569 width=70) (actual time=**19199.316**..25518.672 rows=4935988 loops=1)
   ->  Index Scan using report_dateonly_idx on report a  (cost=0.00..298464.83 rows=5695688 width=70) (actual time=0.033..**5730.776** rows=5816028 loops=1)
         Index Cond: ((date >= '2013-05-01 00:00:00'::timestamp without time zone) AND (date <= '2013-08-30 00:00:00'::timestamp without time zone))
 Total runtime: 29148.500 ms

score 4 · Accepted Answer

クエリプランの理解に関するこの一連のブログ投稿に興味があるかもしれません。

あなたの場合、各コスト/タイミングの2つの数字が何を表しているかを誤解しています。それらは操作の開始と終了ではなく、(大まかに)最初の行までのコスト/時間、およびすべての行を含むコスト/時間です。

Depesz は、"cost=22.88..23.61" の並べ替え操作の例を示しています。データを返す前にすべてを並べ替える必要があるため、データを準備するためのコストが高くなります。ソートされたリストをスプールしているだけなので、実際に返すコストははるかに低くなります。

したがって、あなたの例では、19199.316 は HashAggregate が t=19199.316 まで実行を開始しないことを意味するのではなく、t=19199.316 まで HashAggregate からデータが出力されないことを意味します。

実際、HashAggregate は、インデックススキャンがデータを返し始めるとすぐにデータの処理を開始します。これは t=0.033 です。t=5730.776 までに、インデックススキャンは関連するすべての行を検出しましたが、HashAggregate はまだそれらを処理しています。t=19199.316 で、HashAggregate はその親 (この場合は最終結果) にデータを返し始める準備が整い、t=25518.672 でデータの返しが終了します。

Depezs には、クエリプランを表形式に解釈するツールもあります。これがあなたの計画です。HashAggregate が 19787.896 の「排他的時間」を示していることに注意してください。これは、入力データがどこから来たかを無視して、ハッシュを実行するのにかかった時間です。

score 1 · Accepted Answer

観察された動作の理由: 統計が間違っています:

HashAggregate  (cost=412378.59..418074.28 rows=569569 width=70) (actual time=**19199.316**..25518.672 rows=4935988 loops=1)
 [expected] -----------------------------------^^^^^^       [actual rows found] > ------------------------ ^^^^^^^

これは 9 倍ずれており、結果が work_mem に収まると考えられるため、プランナーはハッシュテーブルベースの集計を選択します。最初は小さすぎて、数回サイズを変更する必要があり、workmem に収まらない場合は、ディスクにスピルする必要さえあります。

ところで: この種の計画を再現することはできませんでした。ビットマップインデックススキャンを取得し続けます。

postgresql - クエリ実行者 - 上のステップの開始は、下のステップの終了と重なっていません

2 に答える 2

Related

Reference