毎秒数千のリクエストを処理するデータ パイプラインの主要コンポーネントとしてKafkaとを使用しています。Zookeeper私はSamza、データに対して行う必要がある小さな変換のためのリアルタイム データ処理ツールとして使用しています。
私の問題は、私の消費者の 1 人 (たとえばConsumerA) がいくつかのトピックを消費しKafkaて処理することです。基本的には消化したトピックの要約を作成します。さらに、このデータを別のトピックとして Kafka にプッシュしたいのですが、それは Kafka と私のコンポーネントでループを形成します。
これが私を悩ませているのですが、これは Kafka で望ましいアーキテクチャですか?
ですべての処理をSamza行い、消化された (要約) 情報のみをKafkafromに保存する必要がありSamzaます。しかし、これから行う処理の量は非常に重いため、別のコンポーネントを使用したいと考えています ( ComponentA)。私の質問は、あらゆる種類のデータ パイプラインに一般化できると思います。
では、コンポーネントがデータ パイプラインでコンシューマーおよびプロデューサーになることは良い方法でしょうか?