apache-spark - スパークによって直接消費されるのではなく、カフカを使用してcdcデータを保存するのはなぜですか?

翻译自：https://stackoverflow.com/questions/65291440 2020-12-14T15:12:58.337

87 次

cassandra、mysql、Oracle ...などの複数のデータソースから CDC データを使用したいと考えています。cdcデータをkafkaにストリーミングし、データをトピックに保存するためのドキュメントをいくつか調べました。最初にデータを kafka トピックにプッシュし、次に kafka トピックに接続してメッセージをさらに消費するスパークプログラムを作成する代わりに、ソースから直接データを消費するスパークプログラムを作成できないと考えていました。ここに私のいくつかの質問があります、私は答えを見つけようとしています:

spark から変更されたレコードを直接消費する代わりに、その間に kafka を使用することの重要性は何ですか?
途中でカフカを使用しても、システムにレイテンシが追加されませんか?

apache-spark - スパークによって直接消費されるのではなく、カフカを使用してcdcデータを保存するのはなぜですか?

1 に答える 1

Related

Reference