私は持っていてRDD[Sale]
、最新の販売だけを残したいと思っていました。そこで、RDD のペアを作成し、グループ化とフィルタリングを実行しました。
val sales: RDD[(String, Sale)] = rawSales.map(sale => sale.id -> sale)
.groupByKey()
.mapValues(_.maxBy(_.timestamp))
RDD[Sale]
しかし、この場合、ペア RDD の代わりにどのように戻るのでしょうか?
私が理解した唯一の方法は次のとおりです。
val value: RDD[Sale] = sales.map(salePaired => salePaired._2)
それは最も適切な解決策ですか?