時間の経過とともに変化するデータがいくつかあり、cassandra に保持しています。UserId はパーティション キーで、スタンプの日付は降順のクラスタリング キーとデータです。これを Spark からクエリして .distinct を実行すると、各 UserId の最上位のエントリが取得され、最新のデータが得られると期待していました。しかし、それはしていないようです。
データを削減し、比較ごとに最近の日付のデータを選択する関数を渡す以外に、最新の日付に対応するデータを取得する方法はありますか?
[編集]
Sample:
Userid: 1
Date: 8/15/2015
Location: Building 1
...
Date 8/1/2015
Location: Building 5
...
Userid: 2
Date: 7/30/2015
Location: Building 10
...
Date: 6/1/2015
Location: Building 3
...
したがって、私の要件によれば、ユーザー 1 の場合は建物 1 を場所として、ユーザー 2 の場合は建物 10 が必要です。
スパークバージョン 1.2.2