問題タブ [sparkr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
1916 参照

apache-spark - sparkR でのストリーミング?

しばらくの間、Scala で Spark を使用しています。現在、pySpark と SparkR を調べています。PySpark と SparkR について言及されているストリーミングは見当たりません。Python と R を使用しているときに Spark ストリーミングを実行できるかどうか知っている人はいますか?

0 投票する
9 に答える
42178 参照

r - R で Parquet を読み取り、R DataFrame に変換するにはどうすればよいですか?

R プログラミング言語でApache Parquetファイル (私の場合は Spark で生成)を処理したいと考えています。

Rリーダーは利用できますか? それとも、作業は 1 つに行われていますか?

そうでない場合、そこに到達するための最も便利な方法は何ですか? 注: Java および C++ バインディングがあります: https://github.com/apache/parquet-mr

0 投票する
2 に答える
655 参照

r - install_github を使用して SparkR パッケージをインストール中にエラーが発生しました

Rでパッケージを使用しようとしています。 、 などのSparkRすべての依存パッケージがあります。devtoolsRtools.exe

次のコマンドを試すと:

次のエラーが表示されます。

これを解決するために、動作する http_proxy、https_proxy を設定しましたが、動作せず、上記のエラーがスローされます。私は R/RStudio を初めて使用します。

0 投票する
1 に答える
1933 参照

r - Java ヒープ領域で OutOfMemory を使用して SparkR 収集メソッドがクラッシュする

SparkR を使用して、約 4M 行を含むテキスト ファイルから作成した RDD を PoC で収集しようとしています。

私の Spark クラスタは Google Cloud で実行されており、bdutil がデプロイされており、それぞれ 15 GB の RAM と 4 コアを備えた 1 つのマスターと 2 つのワーカーで構成されています。私の HDFS リポジトリは、gcs-connector 1.4.0 を使用した Google Storage に基づいています。SparkR は各マシンにインストールされており、基本的なテストは小さなファイルで動作しています。

私が使用するスクリプトは次のとおりです。

これを初めて実行すると、正常に動作しているように見えます。すべてのタスクが正常に実行され、spark の ui にはジョブが完了したと表示されますが、R プロンプトが返されません。

次に、CTRL-C を押して R プロンプトを元に戻した後、collect メソッドを再度実行しようとしました。結果は次のとおりです。

例外メッセージは理解できますが、なぜこれが 2 回目に表示されるのかわかりません。また、Spark で完了した後に収集が返されないのはなぜですか?

私は持っているすべての情報をグーグルで検索しましたが、解決策を見つけることができませんでした. どんな助けやヒントも大歓迎です!

ありがとう

0 投票する
1 に答える
554 参照

sparkr - spark-1.4.0 で sparkR シェルを起動できません

今日、Spark-1.4.0 をダウンロードし、Linux と Windows の両方の環境で sparkR シェルを起動しようとしました - bin ディレクトリからのコマンドsparkRが機能しません。誰でも sparkR シェルの起動に成功しました。お知らせ下さい。

ありがとうサンジェイ

0 投票する
3 に答える
1067 参照

r - Spark 1.4 に付属の SparkR をインストールする

Spark の最新バージョン (1.4) には、SparkR が付属しています。SparkR 実装を Windows にインストールする方法を知っている人はいますか? sparkR.R スクリプトは現在、C:/spark-1.4.0/R/pkgs/R/ にあります。

これは正しい方向への一歩のように見えますが、関連する sparkR ディレクトリがないため、この手順は Windows では機能しません。

0 投票する
4 に答える
3434 参照

rstudio - RStudio 経由で com.databricks.spark.csv を読み込む

Spark-1.4.0 をインストールしました。その R パッケージ SparkR もインストールしており、Spark-shell および RStudio 経由で使用できますが、解決できない違いが 1 つあります。

SparkR-shell 起動時

次のように.csvファイルを読み取ることができます

残念ながら、RStudio 経由で SparkR を起動すると (SPARK_HOME を正しく設定すると)、次のエラー メッセージが表示されます。

ある意味で com.databricks:spark-csv_2.10:1.0.3 をロードする必要があることはわかっていますが、これを行う方法がわかりません。誰かが私を助けることができますか?

0 投票する
1 に答える
1367 参照

r - SparkR とパッケージ

R でのデータ操作に使用するために、spark からパッケージを呼び出すにはどうすればよいですか?

例として、以下のように hdfs の test.csv にアクセスしようとしています

しかし、以下のようにエラーが発生します:

以下のオプションでcsvパッケージを読み込んでみました

しかし、sqlContextのロード中に以下のエラーが発生します

どんな助けでも大歓迎です。

0 投票する
1 に答える
1833 参照

apache-spark - SparkR で map と reduce を行う方法

SparkR を使用して操作をマップおよび削減するにはどうすればよいですか? 私が見つけることができるのは、SQLクエリに関するものだけです。SQLを使用してマップと削減を行う方法はありますか?

0 投票する
1 に答える
1386 参照

sparkr - Unable to call sparkRSQL.init function

I am new to Spark and was trying to run the example mentioned in SparkR page. With some effort, I was able to install sparkR into my machine and was able to run the basic wordcount example. However, when I try to run:

library(SparkR) #works fine - loads the package sc <- sparkR.init() #works fine sqlContext <- sparkRSQL.init(sc) #fails

It says, there is no package called ‘sparkRSQL’. As per documentation sparkRSQL.init is a function in sparkR package. Please let me know if I am missing anything here.

Thanks in advance.