S3 に多数の Parquet ファイルがあり、最適な方法でそれらを redshift にロードしたいと考えています。
各ファイルは複数のチャンクに分割されます...S3 から Redshift にデータをロードする最適な方法は何ですか?
また、Redshift でターゲット テーブル定義をどのように作成しますか? Parquet からスキーマを推測し、プログラムでテーブルを作成する方法はありますか? Redshiftスペクトルを使用してこれを行う方法があると思いますが、スクリプトでこれを行うことができるかどうか知りたい.
あなたの助けに感謝!
Glue、Lambda などのすべての AWS ツールを使用して、(パフォーマンス、セキュリティ、コストの点で) これを最も最適な方法で行うことを検討しています。