代数データ型 (ADT) (つまり、Scala の封印された特性階層) を Spark DataSet列に格納したい場合、最適なエンコード戦略は何ですか?
たとえば、リーフ型がさまざまな種類のデータを格納する ADT があるとします。
sealed trait Occupation
case object SoftwareEngineer extends Occupation
case class Wizard(level: Int) extends Occupation
case class Other(description: String) extends Occupation
構築する最良の方法は次のとおりです。
org.apache.spark.sql.DataSet[Occupation]