問題タブ [dstream]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

107 問題

0 投票する

2 に答える

5961 参照

apache-spark - dstream ドライバープログラムで RDD から結果を収集する

rdds からの結果を配列に収集して送り返すドライバープログラムにこの関数があります。ただし、RDD (dstream 内) にはデータがありますが、関数は空の配列を返しています...何が間違っていますか?

2015-02-25T22:09:31.917

0 投票する

1 に答える

299 参照

apache-spark - DStream のデカルト

Spark デカルト関数を使用して、値の N ペアのリストを生成します。

次に、これらの値をマッピングして、各ユーザー間の距離メトリックを生成します。

これは期待どおりに機能します。

Spark ストリーミングライブラリを使用して、DStream を作成し、その上にマップします。

customReceiverStream.foreachRDD 内でデカルト関数を使用できますが、doc http://spark.apache.org/docs/1.2.0/streaming-programming-guide.htmによると、これは意図した用途ではありません。

foreachRDD(func) 関数を適用する最も一般的な出力演算子、func, to each RDD generated from the stream. This function should push the data in each RDD to a external system, like saving the RDD to files, or writing it over the network to a database. Note that the function func is executed in the driver process running the streaming application, and will usually have RDD actions in it that will force the computation of the streaming RDDs.

DStream のデカルトを計算するには? おそらく私は DStreams の使用を誤解していますか?

apache-spark dstream

2015-03-13T14:28:53.720

0 投票する

2 に答える

1054 参照

scala - Spark ストリーミングによる反復アルゴリズム

したがって、Spark はロジスティック回帰などの単一の RDD で反復アルゴリズムを実行できることを理解しています。

上記の例はw、各反復後に更新されるグローバル状態を維持し、その更新された値が次の反復で使用されるため、反復的です。この機能は Spark ストリーミングで可能ですか? 同じ例を考えてみましょう。ただし、今pointsは DStream です。この場合、勾配を計算する新しい DStream を作成できます。

しかし、グローバル状態をどのように処理しますかw。wDStreamでもある必要があるように思えますが(おそらく使用updateStateByKey)、その最新の値をpointsmap関数に渡す必要がありますが、これは不可能だと思います。DStreams がこの方法で通信できるとは思いません。私は正しいですか、それとも Spark Streaming でこのような反復計算を行うことは可能ですか?

scala iteration apache-spark dstream

2015-03-15T16:51:37.767

0 投票する

0 に答える

333 参照

java - 異なる時間値を持つ並列 reduceByKeyAndWindow()s

私は、異なるウィンドウの長さで計算された 4 つの異なる出力を要求するユースケースで Spark Streaming に取り組んでいます。

特に、 4 つの異なる時間ウィンドウ (ウィンドウは互いに独立しています) に基づいて毎秒計算結果を出力するプログラムが必要です。

これまでのところ、呼び出して60秒の単一ウィンドウに実装しました

JavaPairDStream<K, V>オブジェクト (バッチは 1 秒の長さと想定されています) 。その後、それらのタプルの計算が行われます。

さて、その同じ秒の間に、互いに独立して、300 秒と 600 秒の長さのウィンドウの結果を出力する必要があります。

私の質問は、Spark ストリーミングでも親しみやすいですか? 私はそれに比較的慣れていないので、言えませんでした。はいの場合、誰かがその方法を教えてもらえますか?

java apache-spark reduce spark-streaming dstream

2015-06-11T10:04:38.303

0 投票する

0 に答える

329 参照

window - reduceByKeyAndWindow の結果の DStream の RDD の数

私は現在、DStream から株式相関行列を計算する小さなスパークジョブに取り組んでいます。

DStream[(time, quote)] から、(rdds のすべての引用符を考慮して) 相関関係を計算する前に、複数の rdds 間で時間 (long) ごとに引用符 (double) を集計する必要があります。

私の考えでは、結果のdstream（reduceByKeyAndWindowから）にすべての引用符が集約されたrddが1つしか含まれていない場合、これは解決策になる可能性があります。

しかし、よくわかりません。reduceByKeyAndWindow の後、データはどのように分散されますか? rdds を dstream にマージする方法はありますか?

window reduce spark-streaming rdd dstream

2015-06-19T15:48:15.030

0 投票する

0 に答える

790 参照

unit-testing - モック入力dstream apache spark

スパークストリームユニットテストの作成中に、入力 dstream をモックしようとしています。RDD をモックすることはできますが、それらを dstream に変換しようとすると、dstream オブジェクトが空になります。次のコードを使用しました-

同じことに関するヘルプは大歓迎です。

unit-testing apache-spark spark-streaming rdd dstream

2015-06-25T11:57:36.153

1 2 3 4 5 6 7 8 9 10

問題タブ [dstream]

apache-spark - dstream ドライバー プログラムで RDD から結果を収集する

apache-spark - DStream のデカルト

scala - Spark ストリーミングによる反復アルゴリズム

java - 異なる時間値を持つ並列 reduceByKeyAndWindow()s

window - reduceByKeyAndWindow の結果の DStream の RDD の数

unit-testing - モック入力dstream apache spark

Reference

apache-spark - dstream ドライバープログラムで RDD から結果を収集する