RDD
sparkで 2 つの異なる のデータセットを連結する方法はありますか?
要件は-同じ列名を持つscalaを使用して2つの中間RDDを作成し、両方のRDDのこれらの結果を結合し、UIにアクセスするために結果をキャッシュする必要があります。ここでデータセットを結合するにはどうすればよいですか?
RDD はタイプspark.sql.SchemaRDD
RDD
sparkで 2 つの異なる のデータセットを連結する方法はありますか?
要件は-同じ列名を持つscalaを使用して2つの中間RDDを作成し、両方のRDDのこれらの結果を結合し、UIにアクセスするために結果をキャッシュする必要があります。ここでデータセットを結合するにはどうすればよいですか?
RDD はタイプspark.sql.SchemaRDD
私も同じ問題を抱えていました。列ではなく行で結合するには、unionAll を使用します。
val rddPart1= ???
val rddPart2= ???
val rddAll = rddPart1.unionAll(rddPart2)
データフレームのメソッド概要を読んだら見つけました。詳細: https://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/DataFrame.html