0

グラフ全体のエンティティの流れをモデル化するプラットフォームの開発に取り組んでいます。システムは、これらのプロパティを持つエンティティがグラフ上の特定のノードにいくつあるか、ノードへの流入、ノードへの流出などの質問に答える必要があります。フローデータはストリームでシステムに送られます。フローデータをタイムバケット(たとえば5分)に分割し、さまざまなプロパティに対してさまざまな集計を事前に計算し、クエリを提供するために集計をDynamoDBに保存することを検討しています。

これに関して、次のオプションを評価しています。

  • EMR:フローデータをAWSに配置します-S3/DynamoDBはMapReduce/hiveジョブを実行します

  • 最近のデータをAWS-RDSに入れ、SQLを介して集計を計算します

  • Akka:アクターとメッセージパッシングを介して分散アプリケーションを構築するためのフレームワークです。

    誰かが同様のユースケースに取り組んだり、上記のテクノロジーのいずれかを使用したことがある場合は、どのアプローチが私たちのユースケースに最適であるかを教えてください。

4

2 に答える 2

0

私はEMRを使用してS3でデータを処理しました...かなりうまく機能します。そして最良の部分は、作業負荷に合うさまざまなサイズのHadoopクラスターをスピンアップできることです。

ストリーム処理のためにStormを調べたいと思うかもしれません

ビッグデータツールのリストもここに集めています:http://hadoopilluminated.com/hadoop_book/Bigdata_Ecosystem.html

于 2013-03-13T23:08:58.040 に答える
0

最終的なソリューションはAWSRedshiftを採用しました。その主な理由は、RedshiftがCOPYコマンドを介して提供する高速データ取り込みの要件でした。

Hadoopはデータを効率的に保存するように構築されていますが、取り込みの1秒未満のSLAを保証するものではなく、データがMRジョブで利用可能になる時期のSLAも提供しません。これが、EMRを使用しなかった主な理由です。または一般的にHadoop。

于 2015-08-24T05:15:13.653 に答える