real-time - 単独でスパークストリーミングしない理由

Question

私は Kafka/Spark-Streaming の経験はあまりありませんが、分析/ダッシュボード用のリアルタイムシステムを構築する上でコンボがいかに優れているかについての多くの記事を読みました。誰かがスパークストリーミングだけではできない理由を説明できますか? 言い換えれば、なぜ Kafka はデータソースとスパークストリーミングの間にあるのでしょうか?

ありがとう

score 0 · Accepted Answer

Spark を使用してデータを処理するには、Spark でサポートされているさまざまなデータソースからデータを提供する必要があります。(または、独自のカスタムデータソースを作成する必要があります)

静的データの場合、spark は提供します

  sc.textFile("FILE PATH") //For reading text file
  sc.wholeTextFiles("DIRECTORY PATH") //For reading whole text files in a directory
  sqlContext.read.parquet("FILE PATH")
  sqlContext.read.json("FILE PATH")

結果のRDDにロジックを適用します。

ストリーミングの場合、スパークは次のようなさまざまなソースからのデータをサポートします

Kafka、Flume、Kinesis、Twitter、ZeroMQ、MQTT など

また、Spark は単純なソケットストリーミングもサポートしており、

val 行 = ssc.socketTextStream("localhost", 9999)

多くのための

Kafka は、高スループットの分散メッセージングシステムです。Kafka の分散動作、スケーラビリティ、およびフォールトトレランスは、他のメッセージングシステムよりも優れています。(MQTT、ZMQなど)

質問は、これらのデータソースのうち、どれがあなたのものですか? kafka データソースを独自のものに置き換えることができます。デフォルトのソースとして MQTT を使用しています。

real-time - 単独でスパークストリーミングしない理由

3 に答える 3

Related

Reference