0

私は現在、AWS を利用したデータ レイクの設計を進めています。

私が今持っているもの:

  1. s3 にアップロードされた XML ファイル
  2. AWS Glue クローラービルドカタログ
  3. AWS ETL ジョブはデータを変換し、parquet 形式で保存します。

etl ジョブがデータを変換するたびに、新しい parquet ファイルが作成されます。データを保存する最も効率的な方法は、単一の寄木細工のファイルであると思います。そうですか?もしそうなら、これを達成する方法。

自動生成されたジョブ コード: https://gist.github.com/jkornata/b36c3fa18ae04820c7461adb52dcc1a1

4

1 に答える 1