google-bigquery - 複数のシャードテーブルから 4 億行を超えるクエリを実行する場合、BigQuery で予想されるクエリ応答パフォーマンスはどのくらいですか?

Question

複数のシャードテーブルから 4 億行を超えるクエリを実行すると、一貫して BigQuery のパフォーマンスが低下することに気付きました (応答時間は 30 秒から 1 分)。

異なる時間帯 (午後、深夜、朝) にクエリを 3 回実行しましたが、応答時間が一貫して遅いことに気付きました。クエリは、多くの一意の値を持つ可能性のあるグループ化文字列フィールドを使用し、別の整数値の合計で降順で並べ替え、最終的に上位 10 件のみを返します。

同じスキーマと同じクエリでパフォーマンスタイミングテストを実行しましたが、すべてのデータを 1 ～ 5 個のテーブルに格納したところ、パフォーマンスが常に 10 秒未満であることがわかりました。

7 から 90 のシャードテーブルにシャードされた 4 億から 20 億行のデータセットをクエリする場合、予想される応答時間はどれくらいですか? より多くのテーブルでデータをシャーディングすると、クエリのパフォーマンスが低下する可能性がありますか? 参考までに、各シャードテーブルには、少なくとも 2,400 万から 1 億 4,400 万の行があります。それらは非常に小さなテーブルではありません。

score 0 · Accepted Answer

予想されるクエリのパフォーマンスは、クエリに大きく依存します。クエリで GROUP EACH BY を使用していますか?

データが分割されるテーブルの数は、テーブルの数が非常に大きい場合 (数百または数千) を除いて、クエリのパフォーマンスに大きな影響を与えることはありません。パフォーマンスの違いが見られる場合は、何か問題がある可能性があります。実行中のクエリ、または高速だったクエリと低速だったクエリのプロジェクト ID とジョブ ID を共有していただけませんか?

google-bigquery - 複数のシャード テーブルから 4 億行を超えるクエリを実行する場合、BigQuery で予想されるクエリ応答パフォーマンスはどのくらいですか?

1 に答える 1

Related

Reference

google-bigquery - 複数のシャードテーブルから 4 億行を超えるクエリを実行する場合、BigQuery で予想されるクエリ応答パフォーマンスはどのくらいですか?