BigQuery データベースに数十億のイベント レコードを保持するデータマートがあります。各レコードには一意のイベント ID があり、作成時に暫定値で設定される 1 つのプロパティ (プロパティ「x」としましょう) が含まれます。
このプロパティ値は暫定的なものですが、後の段階で更新する必要がある場合があります。次の 20 ~ 90 日間で、さまざまなデータ マイニング タスクが実行され、プロパティ「x」の新しい値が得られる可能性があります。
この種の更新を行う最善の方法は何ですか?
私が持っていた2つのアイデア1)。プロパティ「x」をイベント レコードから移動し、新しいディメンションと、イベント レコードとディメンションの間に多対多の結合テーブルを追加します。そうすれば、結合テーブルを更新するだけで済みます。データ エンジニアは、これがクエリやレポートのパフォーマンスに影響を与えるのではないかと心配しています。2)。新しい「作成日」レコードをイベント テーブルに追加し、取得キーをイベント ID と最新の作成日を組み合わせたものに変更します。これにより、同じイベント ID と新しいプロパティ「x」の値と、より最近の作成日の値を持つ新しいレコードを書き込むことで、プロパティ「x」を更新できます。
考え?