問題タブ [amazon-redshift]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - Amazon S3 から Redshift にデータをコピーし、行の重複を避ける
Amazon S3 から Redshift にデータをコピーしています。このプロセス中に、同じファイルが再度読み込まれるのを避ける必要があります。Redshift テーブルに一意の制約はありません。copy コマンドを使用してこれを実装する方法はありますか?
http://docs.aws.amazon.com/redshift/latest/dg/r_COPY_command_examples.html
一意の制約を追加し、列を主キーとして設定しようとしましたが、うまくいきませんでした。Redshift は、一意/主キーの制約をサポートしていないようです。
sql - Amazon redshiftの多対多交差テーブル
通常のSQLで多対多のカーディナリティテーブルに似た何かを行う最良の方法は何ですか.
例 - 3 つのテーブル: Product(id identity, name varchar(max)), Sale(id identity,customer varchar(max)), SalesLine(id identity, product integer references product, sale integer references sale):
postgresql のようなものcurrval
は役に立ちますが、これは amazon redshift では利用できません。
多分他のパラダイムが必要だと思いますか?
jdbc - jdbc mysql vs postgresqlでGoogleスプレッドシートをAmazon redshiftに接続する
postgresql クライアントと jdbc の接続をサポートする amazon redshift db があります
Google Apps スクリプトは、jdbc を使用したデータベースへの接続をサポートしていますが、mysql、ms sql、および oracle プロトコルのみを使用しており、postgresql はサポートしていません。試してみると、驚くことではありませんが、エラーが発生します。
「接続 URL は、サポートされていない JDBC プロトコルを使用しています。」
いくつかの Google フォーラムを見ると、これは Google からの応答がなく、数年間問題になっています。
回避策はありますか?
ありがとう
amazon-web-services - Hive -- ファイル間でデータを分割
データを複数の出力ファイルに分割するように Hive に指示する方法はありますか? または、出力ファイルのサイズを制限することもできます。
Redshift を使用する予定です。これは、データを複数のファイルに分割して並列読み込みを可能にすることを推奨していますhttp://docs.aws.amazon.com/redshift/latest/dg/t_splitting-data-files.html
ハイブですべてのデータを前処理しますが、redshift へのコピーを高速化する 10 個の 1GB ファイルなどを作成する方法があるかどうか疑問に思っています。
https://cwiki.apache.org/Hive/adminmanual-configuration.htmlとhttps://cwiki.apache.org/confluence/display/Hive/Configuration+Propertiesを見ていましたが、何も見つかりません
jdbc - AWS Redshift JDBC 挿入パフォーマンス
毎秒約 1000 メッセージのレートでライブ クリックストリーム データを取得し、それを Amazon Redshift に書き込むことを目的とした概念実証アプリを作成しています。
他の人が主張するパフォーマンスのようなものを得るのに苦労しています(たとえば、ここ)。
2 x dw.hs1.xlarge ノード (+ リーダー) を持つクラスターを実行しています。負荷を実行しているマシンは、64 ビット Ubuntu 12.04.1 を実行している Redshift クラスターと同じ VPC 上の EC2 m1.xlarge インスタンスです。
私は Java 1.7 (Ubuntu リポジトリの openjdk-7-jdk) と Postgresql 9.2-1002 ドライバーを使用しています (主に、ビルドを容易にする Maven Central で唯一のドライバーであるためです!)。
最後のテクニックを除いて、ここに示されているすべてのテクニックを試しました。
COPY FROM
「リアルタイム」でデータをロードしたいので使用できません。そのため、S3 または DynamoDB を介してステージングすることは実際にはオプションではなく、Redshift はCOPY FROM stdin
何らかの理由でサポートしていません。
これはログからの抜粋で、個々の行が約 15/秒の速度で挿入されていることを示しています。
私は何を間違っていますか?他にどのようなアプローチを取ることができますか?
amazon-web-services - データ ウェアハウスにはどのような種類のデータが格納されますか?
ペタバイト規模のデータを保存するための Amazon Redshift などのサービスに目を向けます。ここに格納するデータの形式は何ですか? ログ、生データ?
postgresql - Amazon Redshift s3 からコピーして job_id を設定する方法
Amazon Redshift は、「コピー」コマンドを使用して s3 オブジェクトからテーブル データをロードする機能を提供します。copyコマンドを使用する方法ですが、挿入された行ごとに追加の「col = CONSTANT」も設定します。
コピーされた各行に job_id (ソースデータにはありません) を設定したいのですが、「コピー」が取得されたときに各行にジョブ属性があるように、数百万回の挿入を実行する必要があるのは残念だと思います。はるかに優れたパフォーマンスで 99% 達成できました。
多分もっと賢い解決策がありますか?