apache-spark - SparkR を Spark クラスターに接続する

Question

マシン 1 でマスターを使用して、10 台のマシン (1 ～ 10) で実行されている Spark クラスターがあります。これらはすべて CentOS 6.4 で実行されます。

sparkR を使用して、jupyterhub インストール (CentOS へのインストールに関する問題のために ubuntu docker 内で実行されている) をクラスターに接続し、spark コンテキストを取得しようとしています。

私が使用しているコードは

Sys.setenv(SPARK_HOME="/usr/local/spark-1.4.1-bin-hadoop2.4") 
library(SparkR)
sc <- sparkR.init(master="spark://<master-ip>:7077")

私が得る出力は

attaching package: ‘SparkR’
The following object is masked from ‘package:stats’:
filter
The following objects are masked from ‘package:base’:
intersect, sample, table
Launching java with spark-submit command spark-submit sparkr-shell/tmp/Rtmpzo6esw/backend_port29e74b83c7b3 Error in sparkR.init(master = "spark://10.10.5.51:7077"): JVM is not ready after 10 seconds

Error in sparkRSQL.init(sc): object 'sc' not found

Spark 1.4.1 を使用しています。Spark クラスターも CDH 5 を実行しています。

jupyterhub インストールは pyspark 経由でクラスターに接続でき、pyspark を使用する python ノートブックがあります。

誰かが私が間違っていることを教えてもらえますか?

score 0 · Accepted Answer

私は同様の問題を抱えており、あらゆる場所を検索していますが、解決策はありません。「jupyterhub インストール (CentOS へのインストールに問題があるため、ubuntu docker 内で実行されています)」とはどういう意味ですか?

CentOS 6.4 にも 4 つのクラスターがあります。私の他の問題の 1 つは、IPython や RStudio などの IDE を使用して、これら 4 つのサーバーとやり取りする方法です。ラップトップを使用してこれらのサーバーにリモートで接続しますか (はいの場合、どのようにしますか?)、そうでない場合は、他の解決策は何ですか?

あなたの質問に答えるために、私はそれを試してみることができます。ここに記載されているように、 --yarn-cluster オプションを使用する必要があると思います。これが問題の解決に役立つことを願っています。

乾杯、アシッシュ

apache-spark - SparkR を Spark クラスターに接続する

1 に答える 1

Related

Reference