scala - コマンドラインまたはスパークシェルから寄木細工のファイルのスキーム (タイプを含む) を表示する方法は?

Question

スパークシェルを使用してフィールド名を表示する方法を決定しましたが、見苦しく、型が含まれていません

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

println(sqlContext.parquetFile(path))

プリント:

ParquetTableScan [cust_id#114,blar_field#115,blar_field2#116], (ParquetRelation /blar/blar), None

score 11 · Accepted Answer

これを行うことができるはずです：

sqlContext.read.parquet(path).printSchema()

スパークドキュメントから：

// Print the schema in a tree format
df.printSchema()
// root
// |-- age: long (nullable = true)
// |-- name: string (nullable = true)

score 1 · Accepted Answer

OK、私はそれを行うためのOKな方法を持っていると思います。最初の行を覗いてスキームを推測してください。（これがどれほどエレガントかはわかりませんが、たまたま空の場合はどうなりますか??もっと良い解決策があるはずです)

sqlContext.parquetFile(p).first()

ある時点で次のように表示されます。

{
  optional binary cust_id;
  optional binary blar;
  optional double foo;
}
 fileSchema: message schema {
  optional binary cust_id;
  optional binary blar;
  optional double foo;
}

score 0 · Accepted Answer

parquetFile() の結果は、.printSchema() メソッドを持つ SchemaRDD (1.2) または DataFrame (1.3) です。

scala - コマンドラインまたはスパークシェルから寄木細工のファイルのスキーム (タイプを含む) を表示する方法は?

3 に答える 3

Related

Reference