属性に格納されているデータを集計するために分析したい巨大な DynamoDB テーブルがあります。集計されたデータは、Java アプリケーションで処理する必要があります。MapReduce の背後にある非常に基本的な概念は理解していますが、これまで使用したことはありません。
私の場合、すべての DynamoDB アイテムにcustomerId
and属性があり、同じ顧客に対して複数のアイテムを持つことができるとしましょう。お気に入り:orderNumbers
customerId: 1, orderNumbers: 2
customerId: 1, orderNumbers: 6
customerId: 2, orderNumbers: -1
基本的に、各 customerId の orderNumbers を合計してから、集計を使用して Java でいくつかの操作を実行したいと考えています。
AWS Elastic MapReduce が役立つかもしれませんが、カスタム JAR を DynamoDB に接続する方法がわかりません。私のカスタム JAR はおそらく amap
とreduce
関数の両方を公開する必要があります。実装する適切なインターフェイスはどこにありますか?
さらに、ドキュメントに少し混乱しています。カスタム JAR を実行する前に、まずデータを S3 にエクスポートする必要があるようです。これは正しいです?
ありがとう