7,500 万行を超える RDD があり、count
関数を呼び出すと、毎回異なる番号が返されます。私の理解では、カウントは正確な数を与えるはずです。
編集
データの概要を説明すると、構造は次のようになります
Userid: 1
Date: 8/15/2015
Location: Building 1
...
Date 8/1/2015
Location: Building 5
...
Userid: 2
Date: 7/30/2015
Location: Building 10
...
Date: 6/1/2015
Location: Building 3
...
パーティション キー:Userid
クラスタリング キー:Date
ORDER BY DESC
Spark バージョン: 1.2.2
データは Cassandra API からのものです。
使用される API は Scala
Spark Cassandra コネクタ バージョン 1.2.2
です。Userid
Location