SparseMatrix を列の 1 つとして返すことを使用して集計を実行しmapGroups
、列を合計しようとしています。
case class
列名を提供するために、マップされた行のスキーマを作成しました。行列の列は と入力されorg.apache.spark.mllib.linalg.Matrix
ます。toDF
集計を実行する前に実行しないと( select(sum("mycolumn")
)、タイプの不一致エラーが 1 つ発生します ( required: org.apache.spark.sql.TypedColumn[MySchema,?]
)。含めるtoDF
と、別のタイプの不一致エラーが発生します: cannot resolve 'sum(mycolumn)' due to data type mismatch: function sum requires numeric types, not org.apache.spark.mllib.linalg.MatrixUDT
. それで、それを行う正しい方法は何ですか?