cassandra - 個別の使用中に各 RDD のトップエントリを取得する

翻译自：https://stackoverflow.com/questions/32062350 2015-08-18T01:54:36.737

107 次

時間の経過とともに変化するデータがいくつかあり、cassandra に保持しています。UserId はパーティションキーで、スタンプの日付は降順のクラスタリングキーとデータです。これを Spark からクエリして .distinct を実行すると、各 UserId の最上位のエントリが取得され、最新のデータが得られると期待していました。しかし、それはしていないようです。

データを削減し、比較ごとに最近の日付のデータを選択する関数を渡す以外に、最新の日付に対応するデータを取得する方法はありますか?

[編集]

Sample:  
Userid: 1  
    Date: 8/15/2015  
        Location: Building 1  
        ...   
    Date 8/1/2015  
        Location: Building 5  
        ...  
Userid: 2  
    Date: 7/30/2015  
        Location: Building 10  
        ...
    Date: 6/1/2015  
        Location: Building 3  
        ...

したがって、私の要件によれば、ユーザー 1 の場合は建物 1 を場所として、ユーザー 2 の場合は建物 10 が必要です。

スパークバージョン 1.2.2

cassandra - 個別の使用中に各 RDD のトップ エントリを取得する

2 に答える 2

Related

Reference

cassandra - 個別の使用中に各 RDD のトップエントリを取得する