8

Vector 値を持つ列がある Spark DataFrame があります。ベクトル値はすべて n 次元、つまり同じ長さです。また、列名のリストもありArray("f1", "f2", "f3", ..., "fn")、それぞれがベクトル内の 1 つの要素に対応しています。

some_columns... | Features
      ...       | [0,1,0,..., 0]

to

some_columns... | f1 | f2 | f3 | ... | fn

      ...       | 0  | 1  | 0  | ... | 0

これを達成するための最良の方法は何ですか?新しい DataFrame を作成しcreateDataFrame(Row(Features), featureNameList)てから古い DataFrame に結合する方法を考えましたが、createDataFrame を使用するには Spark コンテキストが必要です。既存のデータ フレームのみを変換したい。私も知っていますが、大きい場合は.withColumn("fi", value)どうすればよいですか?n

私は Scala と Spark を初めて使用するので、良い例を見つけることができませんでした。これは一般的な作業でよいと思います。私の特定のケースは、 を使用しCountVectorizer、ベクトルの結果だけではなく、読みやすくするために各列を個別に回復したかったことです。

4

1 に答える 1