1

複数のシャード テーブルから 4 億行を超えるクエリを実行すると、一貫して BigQuery のパフォーマンスが低下することに気付きました (応答時間は 30 秒から 1 分)。

異なる時間帯 (午後、深夜、朝) にクエリを 3 回実行しましたが、応答時間が一貫して遅いことに気付きました。クエリは、多くの一意の値を持つ可能性のあるグループ化文字列フィールドを使用し、別の整数値の合計で降順で並べ替え、最終的に上位 10 件のみを返します。

同じスキーマと同じクエリでパフォーマンス タイミング テストを実行しましたが、すべてのデータを 1 ~ 5 個のテーブルに格納したところ、パフォーマンスが常に 10 秒未満であることがわかりました。

7 から 90 のシャード テーブルにシャードされた 4 億から 20 億行のデータセットをクエリする場合、予想される応答時間はどれくらいですか? より多くのテーブルでデータをシャーディングすると、クエリのパフォーマンスが低下する可能性がありますか? 参考までに、各シャード テーブルには、少なくとも 2,400 万から 1 億 4,400 万の行があります。それらは非常に小さなテーブルではありません。

4

1 に答える 1

0

予想されるクエリのパフォーマンスは、クエリに大きく依存します。クエリで GROUP EACH BY を使用していますか?

データが分割されるテーブルの数は、テーブルの数が非常に大きい場合 (数百または数千) を除いて、クエリのパフォーマンスに大きな影響を与えることはありません。パフォーマンスの違いが見られる場合は、何か問題がある可能性があります。実行中のクエリ、または高速だったクエリと低速だったクエリのプロジェクト ID とジョブ ID を共有していただけませんか?

于 2013-05-25T00:10:40.533 に答える