複数のオンプレミス データベースからクラウドに顧客データを同期する必要があります。2 番目のステップでは、(異なるタイプの) 重複を削除するために、そこにある顧客データをクリーンアップする必要があります。そのクレンジングされたデータに基づいて、データ分析を行う必要があります。
この目標を達成するために、使用できるオープン ソース フレームワークまたはクラウド ソリューションを探しています。Apache Apex と Apache Kafka を調べましたが、これらが適切なソリューションであるかどうかはわかりません。
そのようなタスクに使用するフレームワークのヒントを教えてください。