apache-spark - Spark MLlib で必要な org.apache.spark.rdd.RDD[Array[Double]] を Array[Double] に変換する方法

Question

を実装しようとしていますKMeans using Apache Spark。

val data = sc.textFile(irisDatasetString)
val parsedData = data.map(_.split(',').map(_.toDouble)).cache()

val clusters = KMeans.train(parsedData,3,numIterations = 20)

次のエラーが表示されます。

error: overloaded method value train with alternatives:
  (data: org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector],k: Int,maxIterations: Int,runs: Int)org.apache.spark.mllib.clustering.KMeansModel <and>
  (data: org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector],k: Int,maxIterations: Int)org.apache.spark.mllib.clustering.KMeansModel <and>
  (data: org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector],k: Int,maxIterations: Int,runs: Int,initializationMode: String)org.apache.spark.mllib.clustering.KMeansModel
 cannot be applied to (org.apache.spark.rdd.RDD[Array[Double]], Int, numIterations: Int)
       val clusters = KMeans.train(parsedData,3,numIterations = 20)

そこで、ここに示すように Array[Double] を Vector に変換してみました

scala> val vectorData: Vector = Vectors.dense(parsedData)

次のエラーが発生しました：

error: type Vector takes type parameters
   val vectorData: Vector = Vectors.dense(parsedData)
                   ^
error: overloaded method value dense with alternatives:
  (values: Array[Double])org.apache.spark.mllib.linalg.Vector <and>
  (firstValue: Double,otherValues: Double*)org.apache.spark.mllib.linalg.Vector
 cannot be applied to (org.apache.spark.rdd.RDD[Array[Double]])
       val vectorData: Vector = Vectors.dense(parsedData)

だから私はそれorg.apache.spark.rdd.RDD[Array[Double]]が Array[Double] と同じではないと推測しています

データを次のように処理するにはどうすればよいorg.apache.spark.rdd.RDD[Array[Double]]ですか? またはどうすれば変換できorg.apache.spark.rdd.RDD[Array[Double]] to Array[Double]ますか？

apache-spark - Spark MLlib で必要な org.apache.spark.rdd.RDD[Array[Double]] を Array[Double] に変換する方法

1 に答える 1

Related

Reference