0

DSX で RStudio の spark を使用するためのチュートリアルに従おうとしていますが、次のエラーが発生します。

> library(sparklyr)
> sc <- spark_connect(master = "CS-DSX")
Error in spark_version_from_home(spark_home, default = spark_version) : 
  Failed to detect version from SPARK_HOME or SPARK_HOME_VERSION. Try passing the spark version explicitly.

上記のコード スニペットは、RStudio の [spark に接続] ダイアログから取得しました。

ここに画像の説明を入力

だから私は見てみましたSPARK_HOME

> Sys.getenv("SPARK_HOME")
[1] "/opt/spark"

わかりました、ディレクトリが存在することを確認しましょう:

> dir("/opt")
[1] "ibm"

これが問題の原因だと思いますか?


注:スタックオーバーフローに関する同様の質問がいくつかありますが、いずれも IBM のデータ サイエンス エクスペリエンス (DSX) に関するものではありません。

更新 1:

私は次のことを試しました:

> sc <- spark_connect(config = "CS-DSX")
Error in config$spark.master : $ operator is invalid for atomic vectors

更新 2:

私のconfig.ymlからの抜粋。私には他にも多くのスパークサービスがあることに注意してください。最初のものを貼り付けただけです。

default:
    method: "shell"

CS-DSX:
    method: "bluemix"
    spark.master: "spark.bluemix.net"
    spark.instance.id: "7a4089bf-3594-4fdf-8dd1-7e9fd7607be5"
    tenant.id: "sdd1-7e9fd7607be53e-39ca506ba762"
    tenant.secret: "xxxxxx"
    hsui.url: "https://cdsx.ng.bluemix.net"

私のconfig.ymlは私のために生成されたことに注意してください。

更新 3:

私の .Rprofile は次のようになります。

# load sparklyr library
library(sparklyr)

# setup SPARK_HOME
if (nchar(Sys.getenv("SPARK_HOME")) < 1) {
  Sys.setenv(SPARK_HOME = "/opt/spark")
}

# setup SparkaaS instances
options(rstudio.spark.connections = c("CS-DSX","newspark","cleantest","4jan2017","Apache Spark-4l","Apache Spark-3a","ML SPAAS","Apache Spark-y9","Apache Spark-a8"))

私の .Rprofile は私のために生成されたことに注意してください。

更新 4:

sparklyr をアンインストールし、セッションを 2 回再起動しました。次に実行しようとしました:

library(sparklyr)
library(dplyr)
sc <- spark_connect(config = "CS-DSX")

ただし、上記のコマンドはハングしました。コマンドを停止し、sparklyr のバージョンを確認しましたが、問題ないようです。

> ip <- installed.packages()
> ip[ rownames(ip) == "sparklyr", c(0,1,3) ]
   Package    Version 
"sparklyr"   "0.4.36" 
4

2 に答える 2