0

ファイルには 3 つのイベント (3 列目) 01、02、03 しかありません。

スキーマは unixTimestamp|id|eventType|date1|date2|date3 です

639393604950|1001|01|2015-05-12 10:00:18|||
639393604950|1002|01|2015-05-12 10:04:18|||
639393604950|1003|01|2015-05-12 10:05:18|||
639393604950|1001|02||2015-05-12 10:40:18||
639393604950|1001|03|||2015-05-12 19:30:18|
639393604950|1002|02|2015-05-12 10:04:18|||

sqlContext で、ID でデータをマージするにはどうすればよいですか? 私はID 1001にこれを期待しています:

639393604950|1001|01|2015-05-12 10:00:18|2015-05-12 10:40:18|2015-05-12 19:30:18|

調整が必要なクエリは次のとおりです。

val events = sqlContext.sql("SELECT id, max(date1), max(date2), max(date3) " +
  "FROM parquetFile group by id, date1, date2, date3")
events.collect().foreach(println)
4

2 に答える 2