問題タブ [sparkr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - sparkR でのストリーミング?
しばらくの間、Scala で Spark を使用しています。現在、pySpark と SparkR を調べています。PySpark と SparkR について言及されているストリーミングは見当たりません。Python と R を使用しているときに Spark ストリーミングを実行できるかどうか知っている人はいますか?
r - R で Parquet を読み取り、R DataFrame に変換するにはどうすればよいですか?
R プログラミング言語でApache Parquetファイル (私の場合は Spark で生成)を処理したいと考えています。
Rリーダーは利用できますか? それとも、作業は 1 つに行われていますか?
そうでない場合、そこに到達するための最も便利な方法は何ですか? 注: Java および C++ バインディングがあります: https://github.com/apache/parquet-mr
r - install_github を使用して SparkR パッケージをインストール中にエラーが発生しました
Rでパッケージを使用しようとしています。 、 などのSparkR
すべての依存パッケージがあります。devtools
Rtools.exe
次のコマンドを試すと:
次のエラーが表示されます。
これを解決するために、動作する http_proxy、https_proxy を設定しましたが、動作せず、上記のエラーがスローされます。私は R/RStudio を初めて使用します。
r - Java ヒープ領域で OutOfMemory を使用して SparkR 収集メソッドがクラッシュする
SparkR を使用して、約 4M 行を含むテキスト ファイルから作成した RDD を PoC で収集しようとしています。
私の Spark クラスタは Google Cloud で実行されており、bdutil がデプロイされており、それぞれ 15 GB の RAM と 4 コアを備えた 1 つのマスターと 2 つのワーカーで構成されています。私の HDFS リポジトリは、gcs-connector 1.4.0 を使用した Google Storage に基づいています。SparkR は各マシンにインストールされており、基本的なテストは小さなファイルで動作しています。
私が使用するスクリプトは次のとおりです。
これを初めて実行すると、正常に動作しているように見えます。すべてのタスクが正常に実行され、spark の ui にはジョブが完了したと表示されますが、R プロンプトが返されません。
次に、CTRL-C を押して R プロンプトを元に戻した後、collect メソッドを再度実行しようとしました。結果は次のとおりです。
例外メッセージは理解できますが、なぜこれが 2 回目に表示されるのかわかりません。また、Spark で完了した後に収集が返されないのはなぜですか?
私は持っているすべての情報をグーグルで検索しましたが、解決策を見つけることができませんでした. どんな助けやヒントも大歓迎です!
ありがとう
sparkr - spark-1.4.0 で sparkR シェルを起動できません
今日、Spark-1.4.0 をダウンロードし、Linux と Windows の両方の環境で sparkR シェルを起動しようとしました - bin ディレクトリからのコマンドsparkRが機能しません。誰でも sparkR シェルの起動に成功しました。お知らせ下さい。
ありがとうサンジェイ
r - Spark 1.4 に付属の SparkR をインストールする
Spark の最新バージョン (1.4) には、SparkR が付属しています。SparkR 実装を Windows にインストールする方法を知っている人はいますか? sparkR.R スクリプトは現在、C:/spark-1.4.0/R/pkgs/R/ にあります。
これは正しい方向への一歩のように見えますが、関連する sparkR ディレクトリがないため、この手順は Windows では機能しません。
rstudio - RStudio 経由で com.databricks.spark.csv を読み込む
Spark-1.4.0 をインストールしました。その R パッケージ SparkR もインストールしており、Spark-shell および RStudio 経由で使用できますが、解決できない違いが 1 つあります。
SparkR-shell 起動時
次のように.csvファイルを読み取ることができます
残念ながら、RStudio 経由で SparkR を起動すると (SPARK_HOME を正しく設定すると)、次のエラー メッセージが表示されます。
ある意味で com.databricks:spark-csv_2.10:1.0.3 をロードする必要があることはわかっていますが、これを行う方法がわかりません。誰かが私を助けることができますか?
r - SparkR とパッケージ
R でのデータ操作に使用するために、spark からパッケージを呼び出すにはどうすればよいですか?
例として、以下のように hdfs の test.csv にアクセスしようとしています
しかし、以下のようにエラーが発生します:
以下のオプションでcsvパッケージを読み込んでみました
しかし、sqlContextのロード中に以下のエラーが発生します
どんな助けでも大歓迎です。
apache-spark - SparkR で map と reduce を行う方法
SparkR を使用して操作をマップおよび削減するにはどうすればよいですか? 私が見つけることができるのは、SQLクエリに関するものだけです。SQLを使用してマップと削減を行う方法はありますか?
sparkr - Unable to call sparkRSQL.init function
I am new to Spark and was trying to run the example mentioned in SparkR page. With some effort, I was able to install sparkR into my machine and was able to run the basic wordcount example. However, when I try to run:
library(SparkR) #works fine - loads the package sc <- sparkR.init() #works fine sqlContext <- sparkRSQL.init(sc) #fails
It says, there is no package called ‘sparkRSQL’. As per documentation sparkRSQL.init is a function in sparkR package. Please let me know if I am missing anything here.
Thanks in advance.