11

コンテキスト: ラベルと機能の 2 つの列を持つデータ フレームがあります。

org.apache.spark.sql.DataFrame = [label: int, features: vector]

featuresは、 VectorAssemblerを使用して構築された数値型の mllib.linalg.VectorUDT です。

質問: 特徴ベクトルにスキーマを割り当てる方法はありますか? 各機能の名前を追跡したいと思います。

これまでに試した:

val defaultAttr = NumericAttribute.defaultAttr
val attrs = Array("feat1", "feat2", "feat3").map(defaultAttr.withName)
val attrGroup = new AttributeGroup("userFeatures", attrs.asInstanceOf[Array[Attribute]])

scala> attrGroup.toMetadata 
res197: org.apache.spark.sql.types.Metadata = {"ml_attr":{"attrs":{"numeric":[{"idx":0,"name":"f1"},{"idx":1,"name":"f2"},{"idx":2,"name":"f3"}]},"num_attrs":3}}

しかし、これを既存のデータ フレームに適用する方法がわかりませんでした。

4

1 に答える 1

17

少なくとも 2 つのオプションがあります。

  1. 既存では、メソッドを引数とともにDataFrame使用できます。asmetadata

    import org.apache.spark.ml.attribute._
    
    val rdd = sc.parallelize(Seq(
      (1, Vectors.dense(1.0, 2.0, 3.0))
    ))
    val df = rdd.toDF("label", "features")
    
    df.withColumn("features", $"features".as("_", attrGroup.toMetadata))
    
  2. 新しいDataFrame変換を作成AttributeGroup toStructFieldし、それを特定の列のスキーマとして使用する場合:

    import org.apache.spark.sql.types.{StructType, StructField, IntegerType}
    
    val schema = StructType(Array(
      StructField("label", IntegerType, false),
      attrGroup.toStructField()
    ))
    
    spark.createDataFrame(
      rdd.map(row => Row.fromSeq(row.productIterator.toSeq)),
      schema)
    

VectorAssembler親列を記述する列メタデータを使用してベクター列が作成されている場合は、既にアタッチされている必要があります。

import org.apache.spark.ml.feature.VectorAssembler

val raw = sc.parallelize(Seq(
  (1, 1.0, 2.0, 3.0)
)).toDF("id", "feat1", "feat2", "feat3")

val assembler = new VectorAssembler()
  .setInputCols(Array("feat1", "feat2", "feat3"))
  .setOutputCol("features")

val dfWithMeta = assembler.transform(raw).select($"id", $"features")
dfWithMeta.schema.fields(1).metadata

// org.apache.spark.sql.types.Metadata = {"ml_attr":{"attrs":{"numeric":[
//   {"idx":0,"name":"feat1"},{"idx":1,"name":"feat2"},
//   {"idx":2,"name":"feat3"}]},"num_attrs":3}

ベクトル フィールドは、ドット構文 ( など) を使用して直接アクセスすることはできませんが、次$features.feat1のような特殊なツールで使用できますVectorSlicer

import org.apache.spark.ml.feature.VectorSlicer

val slicer = new VectorSlicer()
  .setInputCol("features")
  .setOutputCol("featuresSubset")
  .setNames(Array("feat1", "feat3"))

slicer.transform(dfWithMeta).show
// +---+-------------+--------------+
// | id|     features|featuresSubset|
// +---+-------------+--------------+
// |  1|[1.0,2.0,3.0]|     [1.0,3.0]|
// +---+-------------+--------------+

PySpark については、ML で使用する DataFrame のカテゴリ機能として列を宣言する方法を参照してください。

于 2016-02-10T01:24:50.800 に答える