Vector 値を持つ列がある Spark DataFrame があります。ベクトル値はすべて n 次元、つまり同じ長さです。また、列名のリストもありArray("f1", "f2", "f3", ..., "fn")
、それぞれがベクトル内の 1 つの要素に対応しています。
some_columns... | Features
... | [0,1,0,..., 0]
to
some_columns... | f1 | f2 | f3 | ... | fn
... | 0 | 1 | 0 | ... | 0
これを達成するための最良の方法は何ですか?新しい DataFrame を作成しcreateDataFrame(Row(Features), featureNameList)
てから古い DataFrame に結合する方法を考えましたが、createDataFrame を使用するには Spark コンテキストが必要です。既存のデータ フレームのみを変換したい。私も知っていますが、大きい場合は.withColumn("fi", value)
どうすればよいですか?n
私は Scala と Spark を初めて使用するので、良い例を見つけることができませんでした。これは一般的な作業でよいと思います。私の特定のケースは、 を使用しCountVectorizer
、ベクトルの結果だけではなく、読みやすくするために各列を個別に回復したかったことです。