問題タブ [sparklyr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - SparkR DataFrame を jobj にシリアライズする
SparkR SparkDataFrame で Java メソッドを使用して Cassandra にデータを書き込めるようにしたいと考えています。
sparklyr
たとえば、拡張機能を使用すると、次のようなことができます。
これにより、毎秒約 20k 行の書き込み速度を実現できます。
ただし、私の使用例ではSparkR::spark.lapply
、Cassandra テーブルのサブセットをローカルで収集し、スクリプトを実行してデータを書き戻すことができるようにしたいと考えています。私が使用しようとしたすべての方法sparklyr
は、最終的にシングルスレッドになったため、実際にはスパークをまったく使用していません。
ではSparkR
、次のようなものを使用してデータを書き込むことができます。
ただし、この場合、書き込み速度は毎秒 2k 行に近くなります。より高い書き込み速度を達成するためSparkR::sparkR.callJMethod
に、ケースと同じチェーンを呼び出すことができると思いますが、最初に、できなかったハンドルを持つものをシリアル化する必要があります。これは可能ですか?sparklyr
SparkDataFrame
jobj
可能であれば、これを達成するための他の方法も受け入れます。sparkR
と の間を移動しようとして調査しましたsparklyr
が、バックエンドが違いすぎるようです (私の知る限り)。また、ここから、まだ類似のlapply
ものはないと信じてsparklyr
います。
助けてくれてありがとう
r - sparklyr で Spark に接続できない
R で sparklyr パッケージを使用して spark に接続しようとしていますが、次のエラーが発生します。
それを解決する方法はありますか?
ありがとう!ラミ
r - R のメモリ制限を回避するためにローカル マシンで Sparklyr を使用できますか?
コンピュータのメモリに収まらないデータに GLM を適用する必要があります。通常、この問題を回避するには、データをサンプリングし、モデルを適合させてから、メモリ不足になる別のサンプルでテストします。これは私にとって R の主な制限であり、メモリに収まらないデータでつまずかないため、GLM の SAS を適合させるために好まれてきました。
ローカル マシンで R を使用してこの問題を解決する方法を探していましたが、Sparklyr を使用してメモリの問題を回避できるかどうかを知りたいですか? Spark はクラスター環境などで使用することを意図していることは理解していますが、率直に言って、Sparklyr を使用して、ローカル マシン上のデータを操作することはできますか?
apache-spark - 2/6 ワーカーにのみ接続するスタンドアロン Spark クラスターへの SparklyR 接続
RStudio を使用して、sparklyR 経由でスタンドアロンの Spark クラスター (CassandraDB のファイル ストレージを使用) に接続するようにスタックをセットアップすることができました。
まだ解決できていない唯一の問題は、sparklyR 接続を取得して、クラスターで使用可能なすべてのワーカー ノード (合計 6 つ) を利用する方法です。接続するたびに、Executor Summary ページに、sparklyR 接続で使用されているワーカーが 2 つだけ表示されます (各ノードに 1 つのエグゼキューターがあります)。
と の設定をspark_connect
含め、呼び出しの config.yml ファイルをいじってみましたが、違いはありません。すべてのノードを使用するように sparklyR を取得するために使用できる別の設定はありますか? すべてのワーカー IP アドレスのリストを渡して、それらすべてに接続することはできますか?spark.executor.instances: 6
spark.num.executors: 6
spark_connect
私のセットアップは次のとおりです: RStudio: 1.0.136、sparklyR: 0.5.3-9000、Spark バージョン (クラスター上およびローカル): 2.0.0。