0

時間の経過とともに変化するデータがいくつかあり、cassandra に保持しています。UserId はパーティション キーで、スタンプの日付は降順のクラスタリング キーとデータです。これを Spark からクエリして .distinct を実行すると、各 UserId の最上位のエントリが取得され、最新のデータが得られると期待していました。しかし、それはしていないようです。

データを削減し、比較ごとに最近の日付のデータを選択する関数を渡す以外に、最新の日付に対応するデータを取得する方法はありますか?

[編集]

Sample:  
Userid: 1  
    Date: 8/15/2015  
        Location: Building 1  
        ...   
    Date 8/1/2015  
        Location: Building 5  
        ...  
Userid: 2  
    Date: 7/30/2015  
        Location: Building 10  
        ...
    Date: 6/1/2015  
        Location: Building 3  
        ...

したがって、私の要件によれば、ユーザー 1 の場合は建物 1 を場所として、ユーザー 2 の場合は建物 10 が必要です。

スパークバージョン 1.2.2

4

2 に答える 2