問題タブ [sparklyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
486 参照

r - SparkR DataFrame を jobj にシリアライズする

SparkR SparkDataFrame で Java メソッドを使用して Cassandra にデータを書き込めるようにしたいと考えています。

sparklyrたとえば、拡張機能を使用すると、次のようなことができます。

これにより、毎秒約 20k 行の書き込み速度を実現できます。

ただし、私の使用例ではSparkR::spark.lapply、Cassandra テーブルのサブセットをローカルで収集し、スクリプトを実行してデータを書き戻すことができるようにしたいと考えています。私が使用しようとしたすべての方法sparklyrは、最終的にシングルスレッドになったため、実際にはスパークをまったく使用していません。

ではSparkR、次のようなものを使用してデータを書き込むことができます。

ただし、この場合、書き込み速度は毎秒 2k 行に近くなります。より高い書き込み速度を達成するためSparkR::sparkR.callJMethodに、ケースと同じチェーンを呼び出すことができると思いますが、最初に、できなかったハンドルを持つものをシリアル化する必要があります。これは可能ですか?sparklyrSparkDataFramejobj

可能であれば、これを達成するための他の方法も受け入れます。sparkRと の間を移動しようとして調査しましたsparklyrが、バックエンドが違いすぎるようです (私の知る限り)。また、ここから、まだ類似のlapplyものはないと信じてsparklyrいます。

助けてくれてありがとう

0 投票する
1 に答える
433 参照

r - sparklyr で Spark に接続できない

R で sparklyr パッケージを使用して spark に接続しようとしていますが、次のエラーが発生します。

それを解決する方法はありますか?

ありがとう!ラミ

0 投票する
1 に答える
329 参照

r - R のメモリ制限を回避するためにローカル マシンで Sparklyr を使用できますか?

コンピュータのメモリに収まらないデータに GLM を適用する必要があります。通常、この問題を回避するには、データをサンプリングし、モデルを適合させてから、メモリ不足になる別のサンプルでテストします。これは私にとって R の主な制限であり、メモリに収まらないデータでつまずかないため、GLM の SAS を適合させるために好まれてきました。

ローカル マシンで R を使用してこの問題を解決する方法を探していましたが、Sparklyr を使用してメモリの問題を回避できるかどうかを知りたいですか? Spark はクラスター環境などで使用することを意図していることは理解していますが、率直に言って、Sparklyr を使用して、ローカル マシン上のデータを操作することはできますか?

0 投票する
1 に答える
473 参照

apache-spark - 2/6 ワーカーにのみ接続するスタンドアロン Spark クラスターへの SparklyR 接続

RStudio を使用して、sparklyR 経由でスタンドアロンの Spark クラスター (CassandraDB のファイル ストレージを使用) に接続するようにスタックをセットアップすることができました。

まだ解決できていない唯一の問題は、sparklyR 接続を取得して、クラスターで使用可能なすべてのワーカー ノード (合計 6 つ) を利用する方法です。接続するたびに、Executor Summary ページに、sparklyR 接続で使用されているワーカーが 2 つだけ表示されます (各ノードに 1 つのエグゼキューターがあります)。

と の設定をspark_connect含め、呼び出しの config.yml ファイルをいじってみましたが、違いはありません。すべてのノードを使用するように sparklyR を取得するために使用できる別の設定はありますか? すべてのワーカー IP アドレスのリストを渡して、それらすべてに接続することはできますか?spark.executor.instances: 6spark.num.executors: 6spark_connect

私のセットアップは次のとおりです: RStudio: 1.0.136、sparklyR: 0.5.3-9000、Spark バージョン (クラスター上およびローカル): 2.0.0。