SparkSQL を使用して、論理 Cassandra 行 (CQL 行) ではなく、「ワイド行」を「反復」またはマップしたい状況があります。
基本的に、私のデータはtimestamp
(パーティション キー) によって分割され、センサー ID であるクラスタリング キーがあります。
timestamp
操作を実行したいそれぞれについて、簡単な例は do ですsensor1/sensor2
。
データの局所性を維持することにより、SparkSQL で効率的にそれを行うにはどうすればよいでしょうか (そして、私のデータ モデルはこれらのタスクにかなり適していると思います)。
Cassandraコネクタで言及されているDatastaxに関するこの投稿を読みました。これを SparkSQL でどのように使用しますか?spanBy
spanByKey
疑似コードの例 (pySpark):
ds = sqlContext.sql("SELECT * FROM measurements WHERE timestamp > xxx")
# span the ds by clustering key
# filter the ds " sensor4 > yyy "
# for each wide-row do sensor4 / sensor1