0

Spark 1.3.0 を使用しており、 Pysparkを使用してCassandraに接続したいと考えています。
>pyspark --packages com.datastax.spark:spark-cassandra-connector_2.10:1.3.0-M2

依存関係の jar を正常にダウンロードして Pyspark ターミナルに入ることが示されていますが、インポートを行うことができません。

>>> from pyspark_cassandra import CassandraSparkContext, Row <br/> 
Tracstrong texteback (most recent call last): 
  File "<stdin>", line 1, in <module> 
ImportError: No module named pyspark_cassandra 

私も試してみました

sudo -u hdfs pyspark --packages TargetHolding:pyspark-cassandra:0.1.5 


また、 を使用して組み立てられた jar を使用し--jars optionます。まだ同じ。同じことが、scala を使用する spark-shell でもうまく機能します。私はpythonが初めてです。何か不足していますか?

4

2 に答える 2

0

1.3.0-M2 のパッケージ リリースはありません。

現時点で唯一の spark-packages のリリースは 1.4.0-M3 です

現在のパッケージについては、以下のリンクを確認してください

http://spark-packages.org/package/datastax/spark-cassandra-connector

実行したら、C* にアクセスする方法は Dataframes API 経由です

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md

于 2015-09-19T22:13:59.860 に答える
0

おそらく PYTHONPATH を次のように設定する必要があります。

export SPARK_HOME=/usr/local/ilias/apache-spark/1.3.0
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
于 2015-09-19T07:26:03.257 に答える