私は持っているtextRDD: org.apache.spark.rdd.RDD[(String, String)]
それをDataFrameに変換したいと思います。列は、各ページ(行)のタイトルと内容に対応しています。
私は持っているtextRDD: org.apache.spark.rdd.RDD[(String, String)]
それをDataFrameに変換したいと思います。列は、各ページ(行)のタイトルと内容に対応しています。
を使用toDF()
し、列名がある場合はそれを指定します。
val textDF = textRDD.toDF("title": String, "content": String)
textDF: org.apache.spark.sql.DataFrame = [title: string, content: string]
また
val textDF = textRDD.toDF()
textDF: org.apache.spark.sql.DataFrame = [_1: string, _2: string]
シェルは自動インポート (私はバージョン 1.5 を使用しています) ですがimport sqlContext.implicits._
、アプリケーションで必要になる場合があります。
私は通常、次のようにこれを行います。
次のようなケース クラスを作成します。
case class DataFrameRecord(property1: String, property2: String)
次に、case クラスを使用して map を使用して新しい構造に変換できます。
rdd.map(p => DataFrameRecord(prop1, prop2)).toDF()