apache-spark - アーキテクチャのヒントが必要: クラウドへのデータレプリケーション + データクレンジング

Question

複数のオンプレミスデータベースからクラウドに顧客データを同期する必要があります。2 番目のステップでは、(異なるタイプの) 重複を削除するために、そこにある顧客データをクリーンアップする必要があります。そのクレンジングされたデータに基づいて、データ分析を行う必要があります。

この目標を達成するために、使用できるオープンソースフレームワークまたはクラウドソリューションを探しています。Apache Apex と Apache Kafka を調べましたが、これらが適切なソリューションであるかどうかはわかりません。

そのようなタスクに使用するフレームワークのヒントを教えてください。

score 1 · Accepted Answer

APEX をざっと読んだところによると、Hadoop は、初期段階でおそらく必要とするよりも多くの依存関係に結合する必要があります。

一方、Kafka はメッセージの送信に使用されます (ストリームや接続など、よく知られていない他の API があります)。

現在、クライアントシステムからログファイルをリアルタイムでストリーミングするために Kafka を使用しています。既定の Kafka は、実際には発火と忘却のセマンティクスのみを提供します。正確に 1 回の配信セマンティックにするために少し追加する必要がありました (Kafka 0.11.0 はこれを解決するはずです)。

全体として、KAFKA は、キューを備えた論理メッセージドメインを備えたより低レベルのソリューションであると考えてください。また、APEX をざっと調べたところ、より多くの調査対象を備えたより重いパッケージ化されたライブラリであると考えてください。

Kafka を使用すると、選択した基盤となる分析システムをコンシューマー API で切り替えることができます。

apache-spark - アーキテクチャのヒントが必要: クラウドへのデータ レプリケーション + データ クレンジング

3 に答える 3

Related

Reference

apache-spark - アーキテクチャのヒントが必要: クラウドへのデータレプリケーション + データクレンジング