0

私は持っていてRDD[Sale]、最新の販売だけを残したいと思っていました。そこで、RDD のペアを作成し、グループ化とフィルタリングを実行しました。

val sales: RDD[(String, Sale)] = rawSales.map(sale => sale.id -> sale)
      .groupByKey()
      .mapValues(_.maxBy(_.timestamp))

RDD[Sale]しかし、この場合、ペア RDD の代わりにどのように戻るのでしょうか?

私が理解した唯一の方法は次のとおりです。

val value: RDD[Sale] = sales.map(salePaired => salePaired._2)

それは最も適切な解決策ですか?

4

1 に答える 1