21

と の 2 つのフィールドを持つ寄木細工のファイルにデータがありobject_id: Stringますalpha: Map<>

これは sparkSQL のデータ フレームに読み込まれ、スキーマは次のようになります。

scala> alphaDF.printSchema()
root
 |-- object_id: string (nullable = true)
 |-- ALPHA: map (nullable = true)
 |    |-- key: string
 |    |-- value: struct (valueContainsNull = true)

私はSpark 2.0を使用しており、次のように列にマップobject_idのキーを追加する必要がある新しいデータフレームを作成しようとしていますALPHAobject_id, key1, key2, key2, ...

私は最初に、少なくとも次のようにマップにアクセスできるかどうかを確認しようとしていました:

scala> alphaDF.map(a => a(0)).collect()
<console>:32: error: Unable to find encoder for type stored in a Dataset.
Primitive types (Int, String, etc) and Product types (case classes) are 
supported by importing spark.implicits._  Support for serializing other
types will be added in future releases.
   alphaDF.map(a => a(0)).collect()

残念ながら、マップのキーにアクセスする方法を理解できないようです。

object_idプラス マップ キーを列名として取得し、値を新しいデータフレームのそれぞれの値として取得する方法を教えてください。

4

2 に答える 2

29

火花 >= 2.3

map_keys関数を使用してプロセスを簡素化できます。

import org.apache.spark.sql.functions.map_keys

関数もありmap_valuesますが、ここでは直接役に立ちません。

スパーク < 2.3

一般的な方法は、いくつかのステップで表現できます。最初に必要なインポート:

import org.apache.spark.sql.functions.udf
import org.apache.spark.sql.Row

およびサンプルデータ:

val ds = Seq(
  (1, Map("foo" -> (1, "a"), "bar" -> (2, "b"))),
  (2, Map("foo" -> (3, "c"))),
  (3, Map("bar" -> (4, "d")))
).toDF("id", "alpha")

キーを抽出するには、UDF (Spark < 2.3) を使用できます。

val map_keys = udf[Seq[String], Map[String, Row]](_.keys.toSeq)

または組み込み関数

import org.apache.spark.sql.functions.map_keys

val keysDF = df.select(map_keys($"alpha"))

異なるものを見つける:

val distinctKeys = keysDF.as[Seq[String]].flatMap(identity).distinct
  .collect.sorted

keysを使用して抽出を一般化することもできますexplode

import org.apache.spark.sql.functions.explode

val distinctKeys = df
  // Flatten the column into key, value columns
 .select(explode($"alpha"))
 .select($"key")
 .as[String].distinct
 .collect.sorted

そしてselect

ds.select($"id" +: distinctKeys.map(x => $"alpha".getItem(x).alias(x)): _*)
于 2016-11-15T06:35:56.610 に答える