MySQL データベースから Vertica データ ウェアハウスにデータを移動する Python ETL プロセスがあります。
ETL コードは、MySQL からエクスポートされたファイルを開き、Pythons Pandas ライブラリを使用してデータを集約および非正規化し、後で Vertica データ ウェアハウスにロードされる新しいファイルを書き込みます。コードはシンプルで、問題なく動作します。
私は偶然、大規模なエンタープライズ ETL ネットワークの構築に関するプレゼンテーションに出くわしました。プレゼンターは、プロセスにメタデータを含めることの重要性、データ セットに関するメタデータ、およびスキーマ情報を使用できることの重要性を強調しました。しかし、具体的な内容は示されませんでした。
このようなメタデータの概念がない私の ETL プロセスはあまりにも素人っぽいので、このスキーマ メタデータの概念を取り入れたいと思います。一般的にはどうすればいいですか?
プレゼンテーション: https://www.youtube.com/watch?v=1SQWzG3FIu4#t=2418 @40:20