DSX で RStudio の spark を使用するためのチュートリアルに従おうとしていますが、次のエラーが発生します。
> library(sparklyr)
> sc <- spark_connect(master = "CS-DSX")
Error in spark_version_from_home(spark_home, default = spark_version) :
Failed to detect version from SPARK_HOME or SPARK_HOME_VERSION. Try passing the spark version explicitly.
上記のコード スニペットは、RStudio の [spark に接続] ダイアログから取得しました。
だから私は見てみましたSPARK_HOME
:
> Sys.getenv("SPARK_HOME")
[1] "/opt/spark"
わかりました、ディレクトリが存在することを確認しましょう:
> dir("/opt")
[1] "ibm"
これが問題の原因だと思いますか?
注:スタックオーバーフローに関する同様の質問がいくつかありますが、いずれも IBM のデータ サイエンス エクスペリエンス (DSX) に関するものではありません。
更新 1:
私は次のことを試しました:
> sc <- spark_connect(config = "CS-DSX")
Error in config$spark.master : $ operator is invalid for atomic vectors
更新 2:
私のconfig.ymlからの抜粋。私には他にも多くのスパークサービスがあることに注意してください。最初のものを貼り付けただけです。
default:
method: "shell"
CS-DSX:
method: "bluemix"
spark.master: "spark.bluemix.net"
spark.instance.id: "7a4089bf-3594-4fdf-8dd1-7e9fd7607be5"
tenant.id: "sdd1-7e9fd7607be53e-39ca506ba762"
tenant.secret: "xxxxxx"
hsui.url: "https://cdsx.ng.bluemix.net"
私のconfig.ymlは私のために生成されたことに注意してください。
更新 3:
私の .Rprofile は次のようになります。
# load sparklyr library
library(sparklyr)
# setup SPARK_HOME
if (nchar(Sys.getenv("SPARK_HOME")) < 1) {
Sys.setenv(SPARK_HOME = "/opt/spark")
}
# setup SparkaaS instances
options(rstudio.spark.connections = c("CS-DSX","newspark","cleantest","4jan2017","Apache Spark-4l","Apache Spark-3a","ML SPAAS","Apache Spark-y9","Apache Spark-a8"))
私の .Rprofile は私のために生成されたことに注意してください。
更新 4:
sparklyr をアンインストールし、セッションを 2 回再起動しました。次に実行しようとしました:
library(sparklyr)
library(dplyr)
sc <- spark_connect(config = "CS-DSX")
ただし、上記のコマンドはハングしました。コマンドを停止し、sparklyr のバージョンを確認しましたが、問題ないようです。
> ip <- installed.packages()
> ip[ rownames(ip) == "sparklyr", c(0,1,3) ]
Package Version
"sparklyr" "0.4.36"