私はRDD
次の構造を持っています:
val rdd = RDD[ (category: String, product: String, score: Double) ]
私の目的はgroup
、カテゴリに基づいてデータを取得することです。次に、カテゴリごとにsort
の wrt スコアを取得しますTuple 2 (product, score)
。今のところ私のコードは次のとおりです。
val result = rdd.groupByKey.mapValues(v => v.toList.sortBy(-_._2))
これは、私が持っているデータに対して非常に高価な操作であることがわかりました。別のアプローチを使用してパフォーマンスを改善しようとしています。