問題タブ [spark-streaming]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5321 問題

0 投票する

5 に答える

10781 参照

java - Spark Streaming での Kafka コンシューマ

Kafka からのメッセージを使用する Spark Streaming ジョブを作成しようとしています。これまでに行ったことは次のとおりです。

飼育係はじめました
Kafkaサーバーを開始しました
サーバーにいくつかのメッセージを送信しました。以下を実行すると、それらを見ることができます。
/li>
5 分以内に着信するメッセージの数をカウントするプログラムを作成しようとしています。

コードは次のようになります。

3 番目の引数 (コンシューマーグループ) に使用する値がわからない。これを実行すると、Unable to connect to zookeeper server. しかし、Zookeeper はポートで実行されています2181。そうしないと、ステップ 3 が機能しません。

うまく使えていないようですKafkaUtils.createStream。何か案は？

2014-11-03T23:58:00.933

0 投票する

1 に答える

1091 参照

apache-kafka - Kafka コンシューマーの欠落記録

Kafka と Spark-Streaming の間に問題があります。本番環境で低レベルのトラフィック (1 秒あたり約 12000 ～ 15000 レコード) のサービスを使用しています。最初は、トラフィックの消費は正常に見えますが、10 ～ 15 分後、突然ほぼ1/10残りを消費する速度。ネットワークのトラフィックの問題でしょうか？

Kafka の構成:
num.network.threads=2
num.io.threads=8
socket.send.buffer.bytes=1048576
socket.receive.buffer.bytes=1048576
socket.request.max.bytes=104857600
log.flush.interval .messages=10000
log.flush.interval.ms=1000
log.retention.hours=12
log.segment.bytes=536870912
log.retention.check.interval.ms=60000
log.cleaner.enable=false
log.cleanup.interval .分=1

スパークストリーミングの構成 (コンシューマー):

apache-kafka spark-streaming

2014-11-06T06:06:27.147

0 投票する

1 に答える

1213 参照

scala - Spark: RDD[T]` を Seq[RDD[T]] に分割し、順序を保持する方法

要素を/に効果的にRDD[T]分割し、元の順序を維持するにはどうすればよいですか?Seq[RDD[T]]Iterable[RDD[T]]n

こんな感じで書けるようになりたいです

次のような結果になるはずです

spark はそのような機能を提供しますか? そうでない場合、これを達成するためのパフォーマンスの高い方法は何ですか?

とても速く見えません..

scala apache-spark spark-streaming rdd

2014-11-12T21:08:48.400

0 投票する

1 に答える

368 参照

apache-spark - Spark Streaming は 2 時間ごとに強制終了されます

ワーカーログを確認したところ、次のエラーが見つかりました。

また、spark.cleaner.ttl の値を 10 分に設定しましたが、うまくいきません。

apache-spark spark-streaming

2014-11-15T14:46:53.627

0 投票する

0 に答える

2624 参照

apache-spark - spark ssc.textFileStream は新しいファイルをストリーミングしていません

hdfsフォルダー（sparkstreamining）からストリーミングしようとしています：

それが私がした良いフォルダかどうかを確認するために

JavaDStream にデータが含まれていないという戻り値でエラーが発生していません。フォルダにはすでにいくつかのファイルが含まれています..

フォルダパスを確認する他の方法はありますか? 他にチェックすべき点はありますか？

注：ローカルファイルから読み取ってストリームに入れようとしましたが、まだ空の入力があります（この試行のコードは次のとおりです）。PC上のファイルの場所をspark-shell ..input.print()行がjava.io.Exceptionを与えています...

また、この 2 番目のバージョンのログは、入力に問題があることを示しています。

ありがとうございました！

apache-spark spark-streaming

2014-11-17T16:43:45.470

0 投票する

1 に答える

124 参照

apache-spark - Spark Streaming は、削減時に日付の順序を保証しますか?

apache spark ストリーミングで reduceByKey を呼び出すときに、ストリーム内のレコードの順序が保証されているかどうか疑問に思っていました。基本的に、私が行う計算の一部は、最後の値を取得する必要があります。

次に例を示します。

apache-spark reduce spark-streaming

2014-11-19T15:53:31.407

1 2 3 4 5 6 7 8 9 10

問題タブ [spark-streaming]

java - Spark Streaming での Kafka コンシューマ

apache-kafka - Kafka コンシューマーの欠落記録

scala - Spark: RDD[T]` を Seq[RDD[T]] に分割し、順序を保持する方法

apache-spark - Spark Streaming は 2 時間ごとに強制終了されます

apache-spark - spark ssc.textFileStream は新しいファイルをストリーミングしていません

apache-spark - Spark Streaming は、削減時に日付の順序を保証しますか?

Reference