問題タブ [dstream]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - dstream ドライバー プログラムで RDD から結果を収集する
rdds からの結果を配列に収集して送り返すドライバープログラムにこの関数があります。ただし、RDD (dstream 内) にはデータがありますが、関数は空の配列を返しています...何が間違っていますか?
apache-spark - DStream のデカルト
Spark デカルト関数を使用して、値の N ペアのリストを生成します。
次に、これらの値をマッピングして、各ユーザー間の距離メトリックを生成します。
これは期待どおりに機能します。
Spark ストリーミング ライブラリを使用して、DStream を作成し、その上にマップします。
customReceiverStream.foreachRDD 内でデカルト関数を使用できますが、doc http://spark.apache.org/docs/1.2.0/streaming-programming-guide.htmによると、これは意図した用途ではありません。
foreachRDD(func) 関数を適用する最も一般的な出力演算子、func, to each RDD generated from the stream. This function should push the data in each RDD to a external system, like saving the RDD to files, or writing it over the network to a database. Note that the function func is executed in the driver process running the streaming application, and will usually have RDD actions in it that will force the computation of the streaming RDDs.
DStream のデカルトを計算するには? おそらく私は DStreams の使用を誤解していますか?
scala - Spark ストリーミングによる反復アルゴリズム
したがって、Spark はロジスティック回帰などの単一の RDD で反復アルゴリズムを実行できることを理解しています。
上記の例はw
、各反復後に更新されるグローバル状態を維持し、その更新された値が次の反復で使用されるため、反復的です。この機能は Spark ストリーミングで可能ですか? 同じ例を考えてみましょう。ただし、今points
は DStream です。この場合、勾配を計算する新しい DStream を作成できます。
しかし、グローバル状態をどのように処理しますかw
。w
DStreamでもある必要があるように思えますが(おそらく使用updateStateByKey
)、その最新の値をpoints
map関数に渡す必要がありますが、これは不可能だと思います。DStreams がこの方法で通信できるとは思いません。私は正しいですか、それとも Spark Streaming でこのような反復計算を行うことは可能ですか?
java - 異なる時間値を持つ並列 reduceByKeyAndWindow()s
私は、異なるウィンドウの長さで計算された 4 つの異なる出力を要求するユース ケースで Spark Streaming に取り組んでいます。
特に、 4 つの異なる時間ウィンドウ (ウィンドウは互いに独立しています) に基づいて毎秒計算結果を出力するプログラムが必要です。
これまでのところ、呼び出して60秒の単一ウィンドウに実装しました
JavaPairDStream<K, V>
オブジェクト (バッチは 1 秒の長さと想定されています) 。その後、それらのタプルの計算が行われます。
さて、その同じ秒の間に、互いに独立して、300 秒と 600 秒の長さのウィンドウの結果を出力する必要があります。
私の質問は、Spark ストリーミングでも親しみやすいですか? 私はそれに比較的慣れていないので、言えませんでした。はいの場合、誰かがその方法を教えてもらえますか?
window - reduceByKeyAndWindow の結果の DStream の RDD の数
私は現在、DStream から株式相関行列を計算する小さなスパーク ジョブに取り組んでいます。
DStream[(time, quote)] から、(rdds のすべての引用符を考慮して) 相関関係を計算する前に、複数の rdds 間で時間 (long) ごとに引用符 (double) を集計する必要があります。
私の考えでは、結果のdstream(reduceByKeyAndWindowから)にすべての引用符が集約されたrddが1つしか含まれていない場合、これは解決策になる可能性があります。
しかし、よくわかりません。reduceByKeyAndWindow の後、データはどのように分散されますか? rdds を dstream にマージする方法はありますか?
unit-testing - モック入力dstream apache spark
スパーク ストリーム ユニット テストの作成中に、入力 dstream をモックしようとしています。RDD をモックすることはできますが、それらを dstream に変換しようとすると、dstream オブジェクトが空になります。次のコードを使用しました-
同じことに関するヘルプは大歓迎です。