8

Dataset次のようなSpark があるとします。

scala> import java.sql.Date
scala> case class Event(id: Int, date: Date, name: String)
scala> val ds = Seq(Event(1, Date.valueOf("2016-08-01"), "ev1"), Event(2, Date.valueOf("2018-08-02"), "ev2")).toDS

Dataset名前と日付フィールドのみで新しいを作成したい。私が見る限り、 with を使用するか、ds.select()withTypedColumnを使用ds.select()してColumnを に変換DataFrameできますDataset

ただし、前のオプションをそのDateタイプで使用することはできません。例えば:

scala> ds.select($"name".as[String], $"date".as[Date])
<console>:31: error: Unable to find encoder for type stored in a Dataset.  Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._  Support for serializing other types will be added in future releases.
              ds.select($"name".as[String], $"date".as[Date])
                                                      ^

後のオプションが機能します。

scala> ds.select($"name", $"date").as[(String, Date)]
res2: org.apache.spark.sql.Dataset[(String, java.sql.Date)] = [name: string, date: date]

行ったり来たりせずにDateフィールドを選択する方法はありますか?DatasetDataFrame

4

1 に答える 1

5

一日中、このような問題に頭を悩ませていました。1行で問題を解決できると思います:

implicit val e: Encoder[(String, Date)] = org.apache.spark.sql.Encoders.kryo[(String,Date)]

少なくともそれは私のために働いています。

編集

これらの場合の問題は、ほとんどのDataset操作で、Spark 2 がEncoder(おそらく最適化のために) スキーマ情報を格納する を必要とすることです。スキーマ情報は、暗黙的なパラメーターの形式をとります (一連のDataset操作には、この種の暗黙的なパラメーターがあります)。

この場合、OP は正しいスキーマを見つけたjava.sql.Dateので、次のように動作します。

implicit val e = org.apache.spark.sql.Encoders.DATE
于 2016-08-05T21:35:43.910 に答える