hadoop - さまざまなプロパティにまたがる集約に最適なテクノロジースタック

Question

グラフ全体のエンティティの流れをモデル化するプラットフォームの開発に取り組んでいます。システムは、これらのプロパティを持つエンティティがグラフ上の特定のノードにいくつあるか、ノードへの流入、ノードへの流出などの質問に答える必要があります。フローデータはストリームでシステムに送られます。フローデータをタイムバケット（たとえば5分）に分割し、さまざまなプロパティに対してさまざまな集計を事前に計算し、クエリを提供するために集計をDynamoDBに保存することを検討しています。

これに関して、次のオプションを評価しています。

EMR：フローデータをAWSに配置します-S3/DynamoDBはMapReduce/hiveジョブを実行します
最近のデータをAWS-RDSに入れ、SQLを介して集計を計算します
Akka：アクターとメッセージパッシングを介して分散アプリケーションを構築するためのフレームワークです。

誰かが同様のユースケースに取り組んだり、上記のテクノロジーのいずれかを使用したことがある場合は、どのアプローチが私たちのユースケースに最適であるかを教えてください。

score 0 · Accepted Answer

私はEMRを使用してS3でデータを処理しました...かなりうまく機能します。そして最良の部分は、作業負荷に合うさまざまなサイズのHadoopクラスターをスピンアップできることです。

ストリーム処理のためにStormを調べたいと思うかもしれません

ビッグデータツールのリストもここに集めています：http：//hadoopilluminated.com/hadoop_book/Bigdata_Ecosystem.html

score 0 · Accepted Answer

最終的なソリューションはAWSRedshiftを採用しました。その主な理由は、RedshiftがCOPYコマンドを介して提供する高速データ取り込みの要件でした。

Hadoopはデータを効率的に保存するように構築されていますが、取り込みの1秒未満のSLAを保証するものではなく、データがMRジョブで利用可能になる時期のSLAも提供しません。これが、EMRを使用しなかった主な理由です。または一般的にHadoop。

hadoop - さまざまなプロパティにまたがる集約に最適なテクノロジースタック

2 に答える 2

Related

Reference