1

ソースとして Apache Kafka データ ストリームに接続する Spark 2.0.2 構造化ストリーミング ジョブがあります。このジョブは、Kafka から Twitter データ (JSON) を取り込み、CoreNLP を使用して、センチメント、品詞のタグ付けなどでデータに注釈を付けますlocal[*]。マスターとうまく連携します。ただし、スタンドアロンの Spark クラスターをセットアップすると、データの処理に使用されるワーカーは 1 つだけになります。同じ能力を持つ 2 人のワーカーがいます。

欠落しているジョブを送信するときに設定する必要があるものはありますか? コマンド--num-executorsで を設定しようとしましたが、うまくいきませんでした。spark-submit

正しい方向へのポインタを前もってありがとう。

4

1 に答える 1

0

最終的に、より多くのパーティションを使用して kafka ソース ストリームを作成しました。これで処理部分が9倍高速化したそうです。Spark と kafka には多くのノブがあります。ふるいにかけることがたくさんあります... Spark ストリーミングへの Kafka トピック パーティションを参照してください

于 2016-12-06T14:39:25.773 に答える