ソフトウェアアプリケーションによって生成されたユーザーデータを分析するために、BigQueryを実験しています。
私たちの作業テーブルは数億行で構成されており、それぞれが一意のユーザー「セッション」を表しています。それぞれに、タイムスタンプ、UUID、およびそのセッション中のユーザーの製品との対話を説明するその他のフィールドが含まれています。現在、1日あたり約2GBのデータ(約1,000万行)を生成しています。
データセット全体に対してクエリを実行することがよくあります(現在、約2か月の価値があり、増え続けています)。ただし、通常のクエリは1日、1週間、または1か月になります。テーブルが大きくなるにつれて、1日のクエリはますます高価になることがわかりました(BigQueryアーキテクチャで予想されるように)
データのサブセットをより効率的にクエリするための最良の方法は何ですか?私が考えることができる1つのアプローチは、データを日(または週、月など)ごとに別々のテーブルに「分割」してから、それらを結合してクエリすることです。
SELECT foo from
mytable_2012-09-01,
mytable_2012-09-02,
mytable_2012-09-03;
これより良い方法はありますか?