1

私は現在、SaaS 準リアルタイム分析アプリケーション用に Redshift をテストしています。クエリのパフォーマンスは、1 億行のデータセットで問題ありません。

ただし、より多くのユーザーが同時にアプリケーションを使用する場合、クラスターあたり 15 クエリの同時実行制限が問題になります。

各クエリ (アドホック クエリ) でフィルターをカスタマイズする権限があるため、すべての集計結果をキャッシュすることはできません。

アプリケーションの要件は次のとおりです。

  • クエリは 10 秒以内に結果を返す必要があります
  • 100 列を超えるフィルターを使用したアドホック クエリ
  • アプリケーションで同時に接続する 1 ~ 50 のクライアント
  • 1,000 万行/日の割合で増加するデータセット
  • 典型的なクエリは、集計関数 COUNT を使用した SELECT、1 つまたは 2 つの結合を使用した AVG です。

Redshift はこのユース ケースに適していませんか? これらの要件に対して、他にどのようなテクノロジを検討しますか?

4

2 に答える 2

1

この質問は、Redshift フォーラムにも投稿されました。https://forums.aws.amazon.com/thread.jspa?messageID=498430髾

Google 経由でこの質問を見つけた他の人のために、私の回答を相互投稿しています。:)

昔は、Essbase や Analysis Services などの OLAP 製品を使用していました。OLAPを調べたい場合は、Mondrianと呼ばれる非常に優れたオープンソースの実装があり、さまざまなデータベース(Redshift AFAIKを含む)で実行できます。また、OSS ブラウザー ベースの OLAP クエリ ツールについては、Saiku を確認してください。

15 を超える同時クエリで Redshift の動作をテストする必要があると思います。クエリは 1 秒か 2 秒待ち行列に入るだけなので、ユーザーが気付くことはないと思います。

Redshift が機能しないことが証明された場合は、Vertica の無料の 3 ノード エディションをテストできます。Redshift よりも少し成熟しており (つまり、より多くの同時ユーザーを処理します)、データの読み込みに関してはるかに柔軟です。

私の意見では、Hadoop/Impala は、あなたのサイズのデータ​​セットには非常に複雑です。また、多数の同時クエリや短時間のクエリ用には設計されていません。

Shark/Spark は、データがすぐに到着し、事前計算できるメトリックのセットが限られている場合のために設計されています。繰り返しますが、これは要件に一致していないようです。

幸運を。

于 2013-11-08T14:43:54.160 に答える