1

複数のオンプレミス データベースからクラウドに顧客データを同期する必要があります。2 番目のステップでは、(異なるタイプの) 重複を削除するために、そこにある顧客データをクリーンアップする必要があります。そのクレンジングされたデータに基づいて、データ分析を行う必要があります。

この目標を達成するために、使用できるオープン ソース フレームワークまたはクラウド ソリューションを探しています。Apache Apex と Apache Kafka を調べましたが、これらが適切なソリューションであるかどうかはわかりません。

そのようなタスクに使用するフレームワークのヒントを教えてください。

4

3 に答える 3

1

APEX をざっと読んだところによると、Hadoop は、初期段階でおそらく必要とするよりも多くの依存関係に結合する必要があります。

一方、Kafka はメッセージの送信に使用されます (ストリームや接続など、よく知られていない他の API があります)。

現在、クライアント システムからログ ファイルをリアルタイムでストリーミングするために Kafka を使用しています。既定の Kafka は、実際には発火と忘却のセマンティクスのみを提供します。正確に 1 回の配信セマンティックにするために少し追加する必要がありました (Kafka 0.11.0 はこれを解決するはずです)。

全体として、KAFKA は、キューを備えた論理メッセージ ドメインを備えたより低レベルのソリューションであると考えてください。また、APEX をざっと調べたところ、より多くの調査対象を備えたより重いパッケージ化されたライブラリであると考えてください。

Kafka を使用すると、選択した基盤となる分析システムをコンシューマー API で切り替えることができます。

于 2017-06-23T21:53:05.177 に答える