ソースとして Apache Kafka データ ストリームに接続する Spark 2.0.2 構造化ストリーミング ジョブがあります。このジョブは、Kafka から Twitter データ (JSON) を取り込み、CoreNLP を使用して、センチメント、品詞のタグ付けなどでデータに注釈を付けますlocal[*]
。マスターとうまく連携します。ただし、スタンドアロンの Spark クラスターをセットアップすると、データの処理に使用されるワーカーは 1 つだけになります。同じ能力を持つ 2 人のワーカーがいます。
欠落しているジョブを送信するときに設定する必要があるものはありますか? コマンド--num-executors
で を設定しようとしましたが、うまくいきませんでした。spark-submit
正しい方向へのポインタを前もってありがとう。