35

RDDsparkで 2 つの異なる のデータセットを連結する方法はありますか?

要件は-同じ列名を持つscalaを使用して2つの中間RDDを作成し、両方のRDDのこれらの結果を結合し、UIにアクセスするために結果をキャッシュする必要があります。ここでデータセットを結合するにはどうすればよいですか?

RDD はタイプspark.sql.SchemaRDD

4

2 に答える 2

2

私も同じ問題を抱えていました。列ではなく行で結合するには、unionAll を使用します。

val rddPart1= ???
val rddPart2= ???
val rddAll = rddPart1.unionAll(rddPart2)

データフレームのメソッド概要を読んだら見つけました。詳細: https://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/DataFrame.html

于 2016-05-30T05:58:33.703 に答える