window - reduceByKeyAndWindow の結果の DStream の RDD の数

翻译自：https://stackoverflow.com/questions/30942283 2015-06-19T15:48:15.030

329 次

私は現在、DStream から株式相関行列を計算する小さなスパークジョブに取り組んでいます。

DStream[(time, quote)] から、(rdds のすべての引用符を考慮して) 相関関係を計算する前に、複数の rdds 間で時間 (long) ごとに引用符 (double) を集計する必要があります。

dstream.reduceByKeyAndWindow{./*aggregate quotes in Vectors*/..} 
       .forEachRDD {rdd => Statistics.corr(RDD[Vector])}

私の考えでは、結果のdstream（reduceByKeyAndWindowから）にすべての引用符が集約されたrddが1つしか含まれていない場合、これは解決策になる可能性があります。

しかし、よくわかりません。reduceByKeyAndWindow の後、データはどのように分散されますか? rdds を dstream にマージする方法はありますか?

0 に答える 0