問題タブ [amazon-redshift]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-redshift - Redshift データベースに接続できません
Postgre JDBC ドライバーを使用して SQL Workbench/J から Redshift データベースに接続しようとしていますが、接続できません。「接続試行に失敗しました」というエラーが表示されます。jdbc ドライバーが適切に配置されている。Aginity Workbench for Redshift も試しましたが、データベースのリストを表示できませんでした。フォームのデータベースへの接続 URL がありますが、jdbc:postgresql://host:port/name_of_database
驚くべきことに、ホストに ping を実行することさえできませんでした。Amazon コンソールから、データベースの状態が良好であることがわかります。だから、私の質問は次のとおりです。
- Redshift db サーバーに ping を実行できないのはなぜですか?
- db サーバーに ssh する方法はありますか?
Edit1: パブリック IP をセキュリティ グループに追加した後、ホストは ping 中に解決されますが、それでも 100% のパケット損失があります。
Edit2: EC2-Classic では正常にデータベースをホストできましたが、EC2-VPC ではホストできませんでした。パブリック IP が不足しているため、100% のパケット損失がある VPC でデータベースを再ホストしようとしました。
bash - S3の最後に処理されたファイルをRedshiftデータベースに保存する方法
今のところ、AWS Data Pipeline を使用して、現在の日付と時刻のみを使用して、Amazon S3 から Amazon Redshift にデータをコピーしました。S3 から Redshift に 30 分ごとにデータをコピーしたいと考えています。また、最後に処理された S3 ファイル名も別の Redshift テーブルに保存されます。
誰かがこの質問に答えることができますか?
amazon-redshift - Redshift: When is the data from an insert available for selecting?
I have a system that writes some rows to Redshift. As soon as it's done (using the JDBC, so as soon as the line of code finishes), we send an id to a queue and another system picks up this id and reads these rows and related rows from Redshift.
This reading usually happens in the same second. The problem is, about 10% of the time it can't find the data that was (apparently) just written. The data is definitely there. Reprocessing these items at a later date gains different (correct) results.
So, my question is does Redshift guarantee immediate data consistency or does our system simply have to wait before reading? And if it has to wait, for how long?
mysql - aggregation and statistical functions on NOSQL databases
Using SQL databases, it is easy to do statistical / aggregate functions like covariance, standard deviation, kurtosis, skewness, deviations, means and medians, summation and product etc, without taking the data out to an application server. http://www.xarg.org/2012/07/statistical-functions-in-mysql/
How are such computations done effectively (as close as possible to the store, assuming map/reduce "jobs" won't be realtime) on NoSql databases in general and dynamodb(cassandra) in particular, for large datasets.
AWS RDS (MySQL, PostgresSQL, ...) is, well, not NoSQL and Amazon Redshift (ParAccel) - a column store - has a SQL interface and may be an overkill ($6.85/hr). Redshift has limited aggregation functionality (http://docs.aws.amazon.com/redshift/latest/dg/c_Aggregate_Functions.html, http://docs.aws.amazon.com/redshift/latest/dg/c_Window_functions.html)
amazon-redshift - RedShift / ParAccel での UNION 選択クエリのパフォーマンスが非常に悪い
redshift に 2 つのテーブルがあります。
- tbl_current_day - 約 450 万行
- tbl_previous_day - 約 450 万行、tbl_current_day とまったく同じデータ
それに加えて、次のように定義されたqry_both_daysというビューがあります。
別のテーブルの 1 つでクエリを実行すると、期待どおりの非常に優れたパフォーマンスが得られます。たとえば、次のクエリは 5 秒間実行されます。
計画の説明:
私の列はint型であるため、幅は想定どおり4バイトであることに注意してください。
ただし、qry_both_daysで同じクエリを実行すると、クエリの実行速度は 20 倍遅くなりますが、2 倍の行を超える必要があるため、実行速度は 2 倍しか遅くないと予想されます。
計画の説明:
問題:幅が本来の 4 バイトではなく 190 になりました!!! UNION SELECT で RedShift に関連する列のみを選択させる方法を知っている人はいますか?
ありがとう!
amazon-redshift - RedShift で初めてクエリを実行するときの実行時間が長い
RedShift で初めてクエリを実行すると、3 ~ 10 秒かかることに気付きました。同じクエリを再度実行すると、WHERE 条件の引数が異なっていても、高速に実行されます (0.2 秒)。私が話していたクエリは、3 つの整数列で、約 100 万行のテーブルで実行されます。
この実行時間の大きな違いは、RedShift がクエリを最初に実行したときにコンパイルし、コンパイルされたコードを再利用するという事実によって引き起こされたものですか?
はいの場合 - コンパイルされたクエリのこのキャッシュを常に暖かく保つ方法は?
もう 1 つの質問: queryA と queryB が与えられた場合。queryA が最初にコンパイルおよび実行されたとします。queryB の実行が queryA 用にコンパイルされたコードを使用するように、queryB は queryA とどの程度類似している必要がありますか?
amazon-redshift - Amazon Redshift : テーブルが存在する場合はドロップします
Redshift は、以下に相当するステートメントをサポートしていますか?