Spark で CSV をデータフレームとして読み取ると、すべての列が文字列として読み取られます。列の実際のタイプを取得する方法はありますか?
次のcsvファイルがあります
Name,Department,years_of_experience,DOB
Sam,Software,5,1990-10-10
Alex,Data Analytics,3,1992-10-10
以下のコードを使用してCSVを読みました
val df = sqlContext.
read.
format("com.databricks.spark.csv").
option("header", "true").
option("inferSchema", "true").
load(sampleAdDataS3Location)
df.schema
すべての列が文字列として読み取られます。列year_of_experienceはintとして読み取られ、DOBはdateとして読み取られることを期待しています
オプションinferSchemaをtrueに設定したことに注意してください。
spark-csv パッケージの最新バージョン (1.0.3) を使用しています
ここで何か不足していますか?