java - アパッチスパーク| さまざまな統計アルゴリズムで Spark MLlib に必要な入力ファイル形式は何ですか?

Question

私は Apacha Spark と MLlib が初めてです。私は、ライブラリ (MLlib) を使用することについて、1 つのことを除けば、かなり理解しています。さまざまなアルゴリズム用に入力データファイルを準備する方法がわかりません。助けてください。ありがとう。

score 0 · Accepted Answer

MLlib ページで提供されている例を見ると、入力データの作成について詳しく説明している例を見つけることができます。ポインターを提供するために、最後の行がラベルであるテキスト csv ファイルがストレージにあるとします。次に、次のコードは、MLlib アルゴリズムに送信できるラベル付きのポイント RDD を作成します。

val inputData = trainTextData.map { lines =>
      val parts = lines.split(",")
      LabeledPoint(parts(index).toDouble, Vectors.dense(remove(parts,index).map(x => if(x=="NULL") (0.0).toDouble else x.toDouble).toArray))
    }.cache

同じ方法を使用して、マップを記述して、入力からデータを作成できます。ただし、データに大きく依存します。

java - アパッチスパーク| さまざまな統計アルゴリズムで Spark MLlib に必要な入力ファイル形式は何ですか?

1 に答える 1

Related

Reference