1

JSON S3ファイルからのデータを含むredshiftテーブルをロードするようにAWSパイプラインを構成しています。

私は RedshiftActivity を使用しており、KEEP_EXISTING ロード メソッドを設定しようとするまではすべて問題ありませんでした。ロードのたびにテーブルを切り捨てたくはありませんが、既存の情報を保持して新しいレコードを追加します。

Redshift アクティビティは、機能するためにテーブルで定義された PRIMARY KEY を必要とするようです (OK) ... DISTRIBUTION KEY の設定も要求されていますが、私は EVEN 配布に興味があり、DISTRIBUTION KEY は EVEN 配布スタイルとは別に機能しないようです.

配布キーを使用して EVEN 配布をシミュレートできますか?

ありがとう。

4

1 に答える 1

1

Redshift でテーブルを作成するときは、主キーを気にしません。distkey の場合、理想的には、値がランダムに分散されたフィールドを選択する必要があります。

増分挿入の場合、私が通常行うことは、SQLActivity を使用してデータを s3 から Redshift のステージング テーブルにコピーすることです。次に、ビジネス ロジックに応じて、更新/挿入/重複除去などの手順を実行します。最後に、ステージング テーブルを削除します。終わり。

于 2015-09-04T18:03:18.133 に答える