3

MySQL データベースから Vertica データ ウェアハウスにデータを移動する Python ETL プロセスがあります。

ETL コードは、MySQL からエクスポートされたファイルを開き、Pythons Pandas ライブラリを使用してデータを集約および非正規化し、後で Vertica データ ウェアハウスにロードされる新しいファイルを書き込みます。コードはシンプルで、問題なく動作します。

私は偶然、大規模なエンタープライズ ETL ネットワークの構築に関するプレゼンテーションに出くわしました。プレゼンターは、プロセスにメタデータを含めることの重要性、データ セットに関するメタデータ、およびスキーマ情報を使用できることの重要性を強調しました。しかし、具体的な内容は示されませんでした。

このようなメタデータの概念がない私の ETL プロセスはあまりにも素人っぽいので、このスキーマ メタデータの概念を取り入れたいと思います。一般的にはどうすればいいですか?

プレゼンテーション: https://www.youtube.com/watch?v=1SQWzG3FIu4#t=2418 @40:20

4

0 に答える 0