scala - Scala Spark - ベクトル列を Spark DataFrame の個別の列に分割する

翻译自：https://stackoverflow.com/questions/49911608 2018-04-19T02:07:19.440

6776 次

Vector 値を持つ列がある Spark DataFrame があります。ベクトル値はすべて n 次元、つまり同じ長さです。また、列名のリストもありArray("f1", "f2", "f3", ..., "fn")、それぞれがベクトル内の 1 つの要素に対応しています。

some_columns... | Features
      ...       | [0,1,0,..., 0]

to

some_columns... | f1 | f2 | f3 | ... | fn

      ...       | 0  | 1  | 0  | ... | 0

これを達成するための最良の方法は何ですか？新しい DataFrame を作成しcreateDataFrame(Row(Features), featureNameList)てから古い DataFrame に結合する方法を考えましたが、createDataFrame を使用するには Spark コンテキストが必要です。既存のデータフレームのみを変換したい。私も知っていますが、大きい場合は.withColumn("fi", value)どうすればよいですか？n

私は Scala と Spark を初めて使用するので、良い例を見つけることができませんでした。これは一般的な作業でよいと思います。私の特定のケースは、を使用しCountVectorizer、ベクトルの結果だけではなく、読みやすくするために各列を個別に回復したかったことです。

scala - Scala Spark - ベクトル列を Spark DataFrame の個別の列に分割する

1 に答える 1

Related

Reference