0

SparkSQL を使用して、論理 Cassandra 行 (CQL 行) ではなく、「ワイド行」を「反復」またはマップしたい状況があります。

基本的に、私のデータはtimestamp(パーティション キー) によって分割され、センサー ID であるクラスタリング キーがあります。

timestamp操作を実行したいそれぞれについて、簡単な例は do ですsensor1/sensor2

データの局所性を維持することにより、SparkSQL で効率的にそれを行うにはどうすればよいでしょうか (そして、私のデータ モデルはこれらのタスクにかなり適していると思います)。

Cassandraコネクタで言及されているDatastaxに関するこの投稿を読みました。これを SparkSQL でどのように使用しますか?spanByspanByKey

疑似コードの例 (pySpark):

ds = sqlContext.sql("SELECT * FROM measurements WHERE timestamp > xxx")
# span the ds by clustering key
# filter the ds " sensor4 > yyy "
# for each wide-row do sensor4 / sensor1
4

1 に答える 1

1

今は無理です。spanByAPI は、プログラム API からのみアクセスできます。SparkSQL で有効にするには、SparkSQL 構文を拡張して余分な句を挿入する必要があり、それは大変な仕事です...

于 2016-03-13T13:36:26.053 に答える