cassandra、mysql、Oracle ...などの複数のデータ ソースから CDC データを使用したいと考えています。cdcデータをkafkaにストリーミングし、データをトピックに保存するためのドキュメントをいくつか調べました。最初にデータを kafka トピックにプッシュし、次に kafka トピックに接続してメッセージをさらに消費するスパーク プログラムを作成する代わりに、ソースから直接データを消費するスパーク プログラムを作成できないと考えていました。ここに私のいくつかの質問があります、私は答えを見つけようとしています:
- spark から変更されたレコードを直接消費する代わりに、その間に kafka を使用することの重要性は何ですか?
- 途中でカフカを使用しても、システムにレイテンシが追加されませんか?