2

R でのデータ操作に使用するために、spark からパッケージを呼び出すにはどうすればよいですか?

例として、以下のように hdfs の test.csv にアクセスしようとしています

Sys.setenv(SPARK_HOME="/opt/spark14")
library(SparkR)
sc <- sparkR.init(master="local")
sqlContext <- sparkRSQL.init(sc)
flights <- read.df(sqlContext,"hdfs://sandbox.hortonWorks.com:8020     /user/root/test.csv","com.databricks.spark.csv", header="true")

しかし、以下のようにエラーが発生します:

Caused by: java.lang.RuntimeException: Failed to load class for data  source: com.databricks.spark.csv

以下のオプションでcsvパッケージを読み込んでみました

Sys.setenv('SPARKR_SUBMIT_ARGS'='--packages com.databricks:spark-csv_2.10:1.0.3')

しかし、sqlContextのロード中に以下のエラーが発生します

Launching java with spark-submit command /opt/spark14/bin/spark-submit   --packages com.databricks:spark-csv_2.10:1.0.3 /tmp/RtmpuvwOky  /backend_port95332e5267b 
Error: Cannot load main class from JAR file:/tmp/RtmpuvwOky/backend_port95332e5267b

どんな助けでも大歓迎です。

4

1 に答える 1