amazon-web-services - aws パイプラインを使用して redshift テーブルをロードする際に既存のファイルを保持する

Question

JSON S3ファイルからのデータを含むredshiftテーブルをロードするようにAWSパイプラインを構成しています。

私は RedshiftActivity を使用しており、KEEP_EXISTING ロードメソッドを設定しようとするまではすべて問題ありませんでした。ロードのたびにテーブルを切り捨てたくはありませんが、既存の情報を保持して新しいレコードを追加します。

Redshift アクティビティは、機能するためにテーブルで定義された PRIMARY KEY を必要とするようです (OK) ... DISTRIBUTION KEY の設定も要求されていますが、私は EVEN 配布に興味があり、DISTRIBUTION KEY は EVEN 配布スタイルとは別に機能しないようです.

配布キーを使用して EVEN 配布をシミュレートできますか?

ありがとう。

score 1 · Accepted Answer

Redshift でテーブルを作成するときは、主キーを気にしません。distkey の場合、理想的には、値がランダムに分散されたフィールドを選択する必要があります。

増分挿入の場合、私が通常行うことは、SQLActivity を使用してデータを s3 から Redshift のステージングテーブルにコピーすることです。次に、ビジネスロジックに応じて、更新/挿入/重複除去などの手順を実行します。最後に、ステージングテーブルを削除します。終わり。

amazon-web-services - aws パイプラインを使用して redshift テーブルをロードする際に既存のファイルを保持する

1 に答える 1

Related

Reference