apache-spark - 複数の Kafka トピックを複数の Spark ジョブに並行して実行する方法

Question

Spark を使い始めたばかりで理解しようとしているので、この質問が意味をなさない場合はご容赦ください。

私が読んだことから、Spark はストリーミングデータのリアルタイム分析を行うための良いユースケースであり、hdfs/hive/hbase などのダウンストリームシンクにプッシュできます。

それについて2つ質問があります。実行中の Spark ストリーミングジョブが 1 つだけなのか、それとも常に複数なのかは明確ではありません。Kafka からのトピックごと、または Kafka にストリーミングしているソースごとに実行する必要があるさまざまな分析があり、それらの結果を下流にプッシュするとします。

Spark では、複数のストリーミングジョブを並行して実行できるので、集計分析をストリームごと、この場合は Kafka トピックごとに分けて保持できますか。もしそうなら、それはどのように行われますか、あなたが私に指摘できるドキュメントはありますか?

明確にするために、私のユースケースはさまざまなソースからストリーミングすることであり、各ソースには、実行する必要がある異なる分析と異なるデータ構造が潜在的に含まれる可能性があります。複数の Kafka トピックとパーティションを使用できるようにしたいと考えています。各 Kafka パーティションは Spark パーティションにマップされ、並列化できることを理解しています。

ただし、複数のSparkストリーミングジョブを並行して実行して、複数のKafkaトピックから読み取り、それらのトピック/ストリームに関する個別の分析を集計する方法はわかりません.

Spark でない場合、これは Flink で実行できるものですか?

2 つ目は、Spark をどのように使い始めるかです。Confluent-Kafka、Databricks-Spark、Hadoop-HW/CDH/MAPR など、コンポーネントごとに選択できる会社やディストリビューションがあるようです。これらすべてが本当に必要なのか、それともベンダーの数を制限しながらビッグデータパイプラインを使用するための最小限で最も簡単な方法は何ですか? POC を開始するだけでも、非常に大きな作業のように思えます。

score 3 · Accepted Answer

複数の質問をいただいておりますので、個別に回答させていただきます。

Spark では、複数のストリーミングジョブを並行して実行できますか?

はい

Kafka を使用した Spark ストリーミングに関するドキュメントはありますか?

https://spark.apache.org/docs/latest/streaming-kafka-integration.html

どのように始めるのですか？

を。本: https://www.amazon.com/Learning-Spark-Lightning-Fast-Data-Analysis/dp/1449358624/

b. Spark を実行/学習する簡単な方法: https://community.cloud.databricks.com

apache-spark - 複数の Kafka トピックを複数の Spark ジョブに並行して実行する方法

2 に答える 2

Related

Reference