apache-spark - すべてのワーカーを使用しない構造化ストリーミングジョブ

Question

ソースとして Apache Kafka データストリームに接続する Spark 2.0.2 構造化ストリーミングジョブがあります。このジョブは、Kafka から Twitter データ (JSON) を取り込み、CoreNLP を使用して、センチメント、品詞のタグ付けなどでデータに注釈を付けますlocal[*]。マスターとうまく連携します。ただし、スタンドアロンの Spark クラスターをセットアップすると、データの処理に使用されるワーカーは 1 つだけになります。同じ能力を持つ 2 人のワーカーがいます。

欠落しているジョブを送信するときに設定する必要があるものはありますか? コマンド--num-executorsでを設定しようとしましたが、うまくいきませんでした。spark-submit

正しい方向へのポインタを前もってありがとう。

score 0 · Accepted Answer

最終的に、より多くのパーティションを使用して kafka ソースストリームを作成しました。これで処理部分が9倍高速化したそうです。Spark と kafka には多くのノブがあります。ふるいにかけることがたくさんあります... Spark ストリーミングへの Kafka トピックパーティションを参照してください

apache-spark - すべてのワーカーを使用しない構造化ストリーミング ジョブ

1 に答える 1

Related

Reference

apache-spark - すべてのワーカーを使用しない構造化ストリーミングジョブ