0

私は Apacha Spark と MLlib が初めてです。私は、ライブラリ (MLlib) を使用することについて、1 つのことを除けば、かなり理解しています。さまざまなアルゴリズム用に入力データ ファイルを準備する方法がわかりません。助けてください。ありがとう。

4

1 に答える 1

0

MLlib ページで提供されている例を見ると、入力データの作成について詳しく説明している例を見つけることができます。ポインターを提供するために、最後の行がラベルであるテキスト csv ファイルがストレージにあるとします。次に、次のコードは、MLlib アルゴリズムに送信できるラベル付きのポイント RDD を作成します。

val inputData = trainTextData.map { lines =>
      val parts = lines.split(",")
      LabeledPoint(parts(index).toDouble, Vectors.dense(remove(parts,index).map(x => if(x=="NULL") (0.0).toDouble else x.toDouble).toArray))
    }.cache

同じ方法を使用して、マップを記述して、入力からデータを作成できます。ただし、データに大きく依存します。

于 2015-02-05T12:58:36.630 に答える