scala - Scala を使用して RDD を Spark の DataFrame に変換する

Question

私は持っているtextRDD: org.apache.spark.rdd.RDD[(String, String)]

それをDataFrameに変換したいと思います。列は、各ページ（行）のタイトルと内容に対応しています。

score 1 · Accepted Answer

を使用toDF()し、列名がある場合はそれを指定します。

val textDF = textRDD.toDF("title": String, "content": String)
textDF: org.apache.spark.sql.DataFrame = [title: string, content: string]

また

val textDF = textRDD.toDF()
textDF: org.apache.spark.sql.DataFrame = [_1: string, _2: string]

シェルは自動インポート (私はバージョン 1.5 を使用しています) ですがimport sqlContext.implicits._、アプリケーションで必要になる場合があります。

score 0 · Accepted Answer

私は通常、次のようにこれを行います。

次のようなケースクラスを作成します。

case class DataFrameRecord(property1: String, property2: String)

次に、case クラスを使用して map を使用して新しい構造に変換できます。

rdd.map(p => DataFrameRecord(prop1, prop2)).toDF()

2 に答える 2