apache-spark - Cassandra からデータを読み取り中にパーティションの数を制御するには?

Question

私が使う：

カサンドラ 2.1.12 - 3 ノード
スパーク 1.6 - 3 ノード
スパークカサンドラコネクタ 1.6

Cassandra でトークンを使用します (vnode ではありません)。

Cassandra テーブルからデータを読み取る簡単なジョブを書いています。そのカウントテーブルを表示すると、約 7,000 万行あり、15 分かかります。

データを読み取っていて、RDD のパーティションの数を確認しているときに、大きすぎる 21000 前後のどこかにあります。この数を制御するには？

を試しましsplitCountたsplit.size.in.mbsが、同じ数のパーティションが表示されます。

助言がありますか？

import org.apache.spark.{SparkContext, SparkConf} 
import com.datastax.spark.connector._
import org.apache.spark.sql.cassandra.CassandraSQLContext
import org.apache.spark.sql.cassandra._
import org.apache.spark.sql
import java.sql.DriverManager
import java.sql.Connection


object Hi {
  def main(args: Array[String])
  {
    val conf = new  SparkConf(true).set("spark.cassandra.connection.host", "172.16.4.196").set("spark.cassandra.input.split.size_in_mb","64")
    val sc = new SparkContext(conf)

    val rdd =  sc.cassandraTable("cw","usedcareventsbydatecookienew")
    println("hello world" + rdd.partitions)
    println("hello world" + rdd.count)
  }

}

これは参照用の私のコードです。nodetool compact を実行して、パーティションの数を制御できるようになりましたが、それでもプロセス全体に 6 分近くかかっています。これは高すぎると思います。

score 4 · Accepted Answer

spark.cassandra.input.split.sizeをお探しですか?

spark.cassandra.input.split.size デフォルト = 64。単一の Spark パーティション内のおおよその行数。値が高いほど、作成される Spark タスクが少なくなります。値を大きくしすぎると、並列処理レベルが制限される場合があります。

score 0 · Accepted Answer

cassandra テーブルでコンパクトコマンドを実行すると問題が解決し、spark.cassandra.input.split.size パラメータを使用して制御できるようになりました

apache-spark - Cassandra からデータを読み取り中にパーティションの数を制御するには?

2 に答える 2

Related

Reference