scala - 異なる結果をもたらす RDD を頼りにする

翻译自：https://stackoverflow.com/questions/32081882 2015-08-18T20:18:31.317

771 次

7,500 万行を超える RDD があり、count関数を呼び出すと、毎回異なる番号が返されます。私の理解では、カウントは正確な数を与えるはずです。

編集

データの概要を説明すると、構造は次のようになります

Userid: 1  
Date: 8/15/2015  
Location: Building 1  
...  
Date 8/1/2015  
Location: Building 5  
...  

Userid: 2  
Date: 7/30/2015  
Location: Building 10 
...
Date: 6/1/2015  
Location: Building 3 
...

パーティションキー:Userid
クラスタリングキー:Date ORDER BY DESC

Spark バージョン: 1.2.2
データは Cassandra API からのものです。
使用される API は Scala
Spark Cassandra コネクタバージョン 1.2.2
です。UseridLocation

scala - 異なる結果をもたらす RDD を頼りにする

1 に答える 1

Related

Reference