7

ローカル デスクトップの RStudio セッションを、sparklyr を介してリモートの spark セッションに接続したいと考えています。RStudio の sparklyr ui タブで新しい接続を追加し、クラスターを選択すると、クラスターで実行するか、クラスターへの高帯域幅接続が必要であると表示されます。

その種の接続を作成する方法を明らかにできる人はいますか? これの再現可能な例を作成する方法はわかりませんが、一般的にやりたいことは次のとおりです。

library(sparklyr)
sc <- spark_connect(master = "spark://ip-[MY_PRIVATE_IP]:7077", spark_home = "/home/ubuntu/spark-2.0.0", version="2.0.0")

リモートサーバーから。特にリモート間でデータをやり取りしようとすると、遅延が発生することを理解しています。また、実際のクラスターに rstudio-server を配置した方がよいことも理解していますが、それが常に可能であるとは限りません。サーバーとデスクトップ RStudio セッションの間で対話するための sparklyr オプションを探しています。ありがとう。

4

3 に答える 3

8

sparklyrバージョンの時点で0.4、RStudio デスクトップからリモート Spark クラスターへの接続はサポートされていません。代わりに、おっしゃるように、推奨されるアプローチは、Spark クラスター内に RStudio Server をインストールすることです。

そうは言っても、sparklyr のlivy ブランチは、RStudio デスクトップが Livy を介してリモート Spark クラスターに接続できるようにする Livy との統合を検討しています。

于 2016-11-01T17:38:36.523 に答える
7

最新バージョンの sparklyr (バージョン0.9.2など) を使用すると、リモート Spark クラスターに接続できます。

以下は、Sparkスタンドアロンクラスター バージョンに接続する例2.3.1です。他のマスター URL スキームについては、マスター URLを参照してください。

#install.packages("sparklyr")
library(sparklyr)

# You have to install locally (on the driver where RStudio is running) the same Spark version
spark_v <- "2.3.1"
cat("Installing Spark in the directory:", spark_install_dir())
spark_install(version = spark_v)

sc <- spark_connect(spark_home = spark_install_find(version=spark_v)$sparkVersionDir, 
                    master = "spark://ip-[MY_PRIVATE_IP]:7077")

sc$master
# "spark://ip-[MY_PRIVATE_IP]:7077"

このトピックに関する投稿を書きました。

于 2018-11-27T15:49:01.923 に答える