グラフ全体のエンティティの流れをモデル化するプラットフォームの開発に取り組んでいます。システムは、これらのプロパティを持つエンティティがグラフ上の特定のノードにいくつあるか、ノードへの流入、ノードへの流出などの質問に答える必要があります。フローデータはストリームでシステムに送られます。フローデータをタイムバケット(たとえば5分)に分割し、さまざまなプロパティに対してさまざまな集計を事前に計算し、クエリを提供するために集計をDynamoDBに保存することを検討しています。
これに関して、次のオプションを評価しています。
EMR:フローデータをAWSに配置します-S3/DynamoDBはMapReduce/hiveジョブを実行します
最近のデータをAWS-RDSに入れ、SQLを介して集計を計算します
Akka:アクターとメッセージパッシングを介して分散アプリケーションを構築するためのフレームワークです。
誰かが同様のユースケースに取り組んだり、上記のテクノロジーのいずれかを使用したことがある場合は、どのアプローチが私たちのユースケースに最適であるかを教えてください。