2

私は現在、DStream から株式相関行列を計算する小さなスパーク ジョブに取り組んでいます。

DStream[(time, quote)] から、(rdds のすべての引用符を考慮して) 相関関係を計算する前に、複数の rdds 間で時間 (long) ごとに引用符 (double) を集計する必要があります。

dstream.reduceByKeyAndWindow{./*aggregate quotes in Vectors*/..} 
       .forEachRDD {rdd => Statistics.corr(RDD[Vector])}

私の考えでは、結果のdstream(reduceByKeyAndWindowから)にすべての引用符が集約されたrddが1つしか含まれていない場合、これは解決策になる可能性があります。

しかし、よくわかりません。reduceByKeyAndWindow の後、データはどのように分散されますか? rdds を dstream にマージする方法はありますか?

4

0 に答える 0