レイクに入れられるすべてのデータは、場所と時間に関して明確な出自を持つことが重要です。すべてのデータ項目には、それがどのシステムから来て、いつデータが生成されたかを明確に示す必要があります。したがって、データレイクには履歴レコードが含まれています。これは、ドメイン イベントをレイクに供給することから生じる可能性があり、イベント ソース システムに自然に適合します。しかし、システムが現在の状態をレイクに定期的にダンプすることからも発生する可能性があります。これは、ソース システムに一時的な機能がなく、そのデータの一時的な分析が必要な場合に役立つアプローチです。この結果、湖に入れられたデータは不変であり、一度述べられた観測は削除できません (後で反駁されるかもしれませんが)、ContradictoryObservations も期待する必要があります。
Data Lake でデータを上書きすることをお勧めします。規則からの例外はありますか? 違うと思いますが、一部のチームメイトは異なる理解を持っています。
累積アルゴリズムの場合、最終状態を再現できるようにするためには、データの来歴とトレーサビリティが必要だと思います。最終状態が以前の結果に依存していない場合はどうなりますか? Data Lake での Data Lake の不変性 (イベント ソーシング) は累積アルゴリズムにのみ必要であると彼が言った場合、誰かが正しいでしょうか?
たとえば、テーブル A と B の全負荷の毎日の取り込みがあり、その後、テーブル C を計算します。ユーザーが C の最新の結果のみに関心がある場合、履歴を保持する理由はありますか (日付のパーティショニングに基づくイベント ソーシング) ) A、B および C の?
もう 1 つの問題は、ACID 準拠である可能性があります。ファイルが破損しているか、部分的に書き込まれている可能性があります。しかし、A と B の最新の状態をソース システムから簡単に復元できるケースについて話しているとします。