ログから Google BigQuery にデータをアップロードする必要があり、クエリ時に重複しないログ データの 2 つのサブセットがあります。
- サブセット番号 1 には、WHERE 句で頻繁に使用されるフィールド「vendor_id」があります。
- サブセット番号 2 は、「vendor_id」を持たないログ エントリです。
null 可能な「vendor_id」フィールドを持つテーブルを 1 つだけ作成するか、サブセットごとに 2 つの異なるテーブルを作成することができます。これらのアプローチのパフォーマンスに違いはありますか?
よろしく
レオ