私のプロジェクトは2か月前に開始され、実行する各プロセスで100を超えるテーブルをデータウェアハウスに転送しています。
私はおそらくすぐに200〜300のテーブルに到達し、現在の開発アプローチが拡張されるとは思わないでしょう。
私はまだ3週間のバージョン(製品開発スプリント)を持っており、テーブルはまだ構造(データ型、列名、新しい列など)を変更しているため、最初の数週間は無視しました。
どうやってそれを無視したのですか?
- ODS(オペレーショナルデータストア)/ MRRレイヤーに移動する前に、すべてのテーブルを切り捨てました
- ソースシステムからMRRレイヤーに完全にすべてのデータを取得しました
- ディメンションの「インクリメンタル」テーブルのみを作成しました(新しい列と変更されたデータ型で毎週変更されます)
- ステージングテーブルとウェアハウステーブルを動的に作成してデータを入力します。
モデルが形成され始めたので、増分負荷に注意する必要があります
- 各レコードの更新時刻があるので簡単に思えますが、ソースシステムにも削除があります。これにどのようにアプローチできますか?
- 私はCDCを検討しましたが、テーブルごとに配置する必要があるため、これには時間がかかります。
- 100〜200のテーブルから始める人のための解決策はありますか?