コンパイル時に不明な形式のデータを含む Parquet ファイルを作成したいと考えています。後でスキーマをテキストとして取得していますが、一部の列に日付と時刻が含まれていることがわかっています。Spark と Java を使用してこれを行いたいと考えています。そこで、http://spark.apache.org/docs/1.2.1/sql-programming-guide.html#programmatically-specifying-the-schemaに従い、適切な型のスキーマを作成しました。SparkDataType.TimestampType
とDataType.DateType
日付のような列を使用しようとしました。しかし、どちらも機能していません。ファイルを保存しようとするとJavaSchemaRDD.saveAsParquetFile
、エラーUnsupported datatype
+ 日付に試したタイプが表示されます。これで試してみたemptyRDD
ので、データ変換に問題はありません。
調べた後: http://parquet.incubator.apache.org/documentation/latest/と https://github.com/Parquet/parquet-format/blob/master/LogicalTypes.mdを変換する必要があると思いますdata を integer/long 型に変換し、それらが Date を表しているという事実を通知します。もしそうなら、どうすればSparkでこれを行うことができますか? それとも、何か他のことをする必要がありますか?