3

7,500 万行を超える RDD があり、count関数を呼び出すと、毎回異なる番号が返されます。私の理解では、カウントは正確な数を与えるはずです。

編集

データの概要を説明すると、構造は次のようになります

Userid: 1  
Date: 8/15/2015  
Location: Building 1  
...  
Date 8/1/2015  
Location: Building 5  
...  

Userid: 2  
Date: 7/30/2015  
Location: Building 10 
...
Date: 6/1/2015  
Location: Building 3 
...

パーティション キー:Userid
クラスタリング キー:Date ORDER BY DESC

Spark バージョン: 1.2.2
データは Cassandra API からのものです。
使用される API は Scala
Spark Cassandra コネクタ バージョン 1.2.2
です。UseridLocation

4

1 に答える 1