私は現在、AWS を利用したデータ レイクの設計を進めています。
私が今持っているもの:
- s3 にアップロードされた XML ファイル
- AWS Glue クローラービルドカタログ
- AWS ETL ジョブはデータを変換し、parquet 形式で保存します。
etl ジョブがデータを変換するたびに、新しい parquet ファイルが作成されます。データを保存する最も効率的な方法は、単一の寄木細工のファイルであると思います。そうですか?もしそうなら、これを達成する方法。
自動生成されたジョブ コード: https://gist.github.com/jkornata/b36c3fa18ae04820c7461adb52dcc1a1