この話のさまざまなアクター (PySpark、SparkSQL、Cassandra、および pyspark-cassandra コネクタ) と少し混乱しています。
私が理解しているように、Spark はかなり進化し、SparkSQL は現在 (「データフレーム」と共に) 重要なコンポーネントになっています。特に Cassandra に接続する場合は特に、SparkSQL なしで動作する理由はまったくないようです。
私の質問は次のとおりです。どのコンポーネントが必要で、それらを可能な限り簡単な方法で接続するにはどうすればよいですか?
Scalaではspark-shell
簡単にできます
./bin/spark-shell --jars spark-cassandra-connector-java-assembly-1.6.0-M1-SNAPSHOT.jar
その後
import org.apache.spark.sql.cassandra.CassandraSQLContext
val cc = new CassandraSQLContext(sc)
cc.setKeyspace("mykeyspace")
val dataframe = cc.sql("SELECT count(*) FROM mytable group by beamstamp")
どうすればそれを行うことができpyspark
ますか?
ここに、私が収集した部分的な回答とともに、いくつかのサブ質問があります (間違っていれば修正してください)。
pyspark-casmandra が必要ですか (そうは思いません - そもそも何をしていたのかわかりません)
使用する必要があります
pyspark
か、それとも正規のものを使用jupyter notebook
して必要なものを自分でインポートできますか?