RStudio を使用して、sparklyR 経由でスタンドアロンの Spark クラスター (CassandraDB のファイル ストレージを使用) に接続するようにスタックをセットアップすることができました。
まだ解決できていない唯一の問題は、sparklyR 接続を取得して、クラスターで使用可能なすべてのワーカー ノード (合計 6 つ) を利用する方法です。接続するたびに、Executor Summary ページに、sparklyR 接続で使用されているワーカーが 2 つだけ表示されます (各ノードに 1 つのエグゼキューターがあります)。
と の設定をspark_connect
含め、呼び出しの config.yml ファイルをいじってみましたが、違いはありません。すべてのノードを使用するように sparklyR を取得するために使用できる別の設定はありますか? すべてのワーカー IP アドレスのリストを渡して、それらすべてに接続することはできますか?spark.executor.instances: 6
spark.num.executors: 6
spark_connect
私のセットアップは次のとおりです: RStudio: 1.0.136、sparklyR: 0.5.3-9000、Spark バージョン (クラスター上およびローカル): 2.0.0。