問題タブ [sparklyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
176 参照

java - SparkRを介してSQLテーブルをrにロードできません

sparkR を使用して R に SQL テーブルをロードしようとしています。次のコードがあります。

このコードをそのまま実行すると、次のエラーが発生します。

誰かが問題の可能性についてヒントを与えることができますか?

前もって感謝します

0 投票する
1 に答える
405 参照

r - SparkR と Sparklyr を同時に使用する

私が理解している限りでは、これら 2 つのパッケージは Apache Spark に対して似ているがほとんど異なるラッパー関数を提供します。Sparklyr は新しく、機能の範囲を拡大する必要があります。したがって、機能の全範囲を取得するには、現在両方のパッケージを使用する必要があると思います。

どちらのパッケージも基本的に、scala クラスの Java インスタンスへの参照をラップしているため、パッケージを並行して使用できるはずです。しかし、それは実際に可能ですか?ベストプラクティスは何ですか?

0 投票する
1 に答える
917 参照

r - Sparklyr 用に Windows に Spark をインストールする

Windows 環境で Spark と Hadoop をセットアップするためのチュートリアルをいくつか試しましたが、特に R と一緒に使用しました。 このチュートリアルでは、図 9 に到達するまでにこのエラーが発生しました。

ここに画像の説明を入力

Rstudio のこのチュートリアルでも問題が発生しています。に着いたら

sc <- spark_connect(master = "local")

ステップ、私はこのおなじみのエラーが表示されます:

このポートの問題は、Ms. Zaidi のチュートリアル (こちら"yarn-client") から試したときに、パラメーターを内部に割り当てようとしたときに発生する問題と似ています。(このチュートリアルには独自の問題があり、興味のある方はこちらの掲示板に投稿しました。)spark_connect(...)

Ubuntu VM を最初にインストールする場合は、TutorialsPointウォークスルーでうまくいきますが、私は Microsoft R(RO) を使用しているので、Windows でこれを理解したいと思います。では実行できないコマンドを実行できる最初のチュートリアル.\bin\sparkR

最も一般的には、Windowsで、できればsparklyrを使用してSparkをRと一緒にインストールして実行する方法を理解しようとしています。

更新 1: これは、ディレクトリにあるものです。

ここに画像の説明を入力

更新 2: これは私の R セッションとシステム情報です

ここに画像の説明を入力

0 投票する
0 に答える
275 参照

r - SparkR と Sparklyr を使用した Spark データ フレームの操作 - 非現実的な設定ですか?

現在、SparkR と sparklyr パッケージを使用していますが、これらは高次元のスパース データ セットには適していないと思います。

どちらのパッケージにも、いくつかの列または行の単純な論理条件によって、データ フレームの列と行を選択/フィルター処理できるパラダイムがあります。しかし、これは多くの場合、そのような大規模なデータ セットに対して行うことではありません。そこでは、何百もの行または列エントリの値に基づいて行と列を選択する必要があります。多くの場合、最初に各行/列の統計を計算してから、これらの値を選択に使用する必要があります。または、データ フレームのみの特定の値に対処する必要があります。

例えば、

  1. 欠損値が 75% 未満のすべての行または列を選択するにはどうすればよいですか?

  2. 各列または行から導出された列または行固有の値で欠損値を代入するにはどうすればよいですか?

  3. (#2) を解決するには、データ フレームの各行または列に対して個別に関数を実行する必要があります。ただし、SparkR の dapplyCollect のような関数でさえ、遅すぎるため、実際には役に立ちません。

何かが足りないのかもしれませんが、SparkR と sparklyr はこれらの状況ではあまり役に立ちません。私が間違っている?

余談ですが、欠損値の処理などの厳しい制限がある場合、 MLlib や H2O などのライブラリを Sparklyrと統合する方法がわかりません。

0 投票する
1 に答える
814 参照

r - R で Sparklyr を使用して .csv ファイルを読み取る

サイズが 2 GB を超える.csvファイルがいくつかあります。C:\Users\USER_NAME\DocumentsApache Spark を使用して、R でそれらからデータを読み取りたいと考えています。Microsoft R Open 3.3.1 と Spark 2.0.1 を使用しています。

パッケージで定義され.csvた関数を使用してファイルを読み取ることに固執しています。で始まるファイルパスを要求しています。ディレクトリにあるファイル名で始まり、ファイル名で終わる、私の場合の適切なファイルパスを知りたいです。spark_read_csv(...)Sparklyrfile://file://.../Documents

0 投票する
1 に答える
532 参照

r - sparklyr hadoop構成

この質問は、実行中の spark コンテキスト (以下では sc として参照) を伴うため、完全に再現可能にするのが難しいことをお詫びしますが、sparklyr で hadoopConfiguration を設定しようとしています。特に、RStudio sparklyr からの swift/objectStore オブジェクトにSpark オブジェクトですが、一般的には hadoopConfiguration への scala 呼び出し用です。(scala コード) のようなもの:

ここで、sc は実行中の Spark コンテキストです。SparkR で実行できます (R コード)

sparklyr では、私が考えているすべての呪文を試しましたが、私の最善の推測は (再び R コード)

しかし、これにより、次の詳細でないエラー (および不規則なスペル) が発生します。

もちろん、考えられるあらゆる方法で入力をエンコードしようとしました (当然 enc2utf8(value) が最初ですが、リストや as.character(as.list(...)) を含む他の多くの方法は、 sparklyr コーダーのお気に入り)。どんな提案でも大歓迎です。sparklyr のソース コードをくまなく調べたところ、sparklyr github で hadoopConfiguration に関する言及が見つからないため、コア構成で非常に基本的なものが欠けているのではないかと心配しています。また、spark_connect() コア呼び出しの config.yml でこれらの構成を渡そうとしましたが、これは「fs.swift.service.keystone.auth.url」を sc$config$s として設定する際に機能しています。 swift.service.keystone.auth.url の設定では、これらをコアの hadoopConfiguration として設定できていないようです。

ちなみに、Spark1.6、scala 2.10、R 3.2.1、sparklyr_0.4.19 を使用しています。

0 投票する
2 に答える
5884 参照

r - SparklyR が Spark コンテキストからテーブルを削除する

Spark コンテキスト ('sc') から単一のデータ テーブルを削除したいと考えています。単一のキャッシュされたテーブルをキャッシュ解除できることは知っていますが、これは sc からオブジェクトを削除することと同じではありません - 私が収集できる限り。

完全な sc を切断するには、 を使用spark_disconnect(sc)しますが、この例では、sc 内に格納されている「タイタニック」テーブルと「バッティング」テーブルの両方が破棄されます。

むしろ、例えば「バッティング」を のようなもので削除したいのですspark_disconnect(sc, tableToRemove = "batting")が、これは不可能のようです。

0 投票する
0 に答える
454 参照

r - mutate と lag を使用して 2 つの列を作成すると、sparklyr AnalysisException が発生する

次のdata.frameがあります:

作成したら、sparklyrを使用して Spark にコピーできます。

作成したらmutate、関数を使用して別の列を作成して、列を作成できlagます。

mutate関数を使用して複数の列を作成しようとすると、問題が発生しますlag。たとえば、ここでは、列 A と B の "ラグ" である 2 つの新しい列 E と F を作成します。

ただし、この例外は、2 つの列を作成しても 1 回しか使用しない場合には発生しませんlag。次に例を示します。

何らかの理由で、アクションlag()内で 2 つの呼び出しが実行されたときに例外が発生します。と のさまざまな組み合わせとのさまざまな配置をmutate(失敗して) 試しました。それらはすべて同じ例外を発生させますが、これは理解できません。Spark コードを見ると、ここで例外が発生していることがわかります。lag()lead()mutate

チェックに失敗したウィンドウ関数の状態に関連していることは理解していlagますが、ここでの根本的な問題はよくわかりません。どんな助け/アイデアも大歓迎です。

0 投票する
1 に答える
797 参照

r - SparklyR Spark install を使用して R で Scala コードを実行する

Spark のインストールに含まれるカスタムscalac(Scala Compiler)の使用を検討しています。sparklyrRStudio SparkUI タブ (または からspark_web(sc)) >> 環境 >> /jars/scala-compiler-2.11.8.jar「システム環境」として見つかりますscalac。ベースディレクトリに個別にダウンロードしてインストールするのではなく、ここにあり、RStudio からリンクされている「hello world」の例で提案されているように拡張機能の作成に関するページhttp://spark.rstudio.com/extensions.html

これは、Ubuntuを使用してこれまでに得たものですが、以下のエラーで失速しました。上記の「hello world」の例で使用した Github-repo とまったく同じディレクトリをセットアップしました。提案されたベース パス フォルダのいずれかにインストールせずに、このエラーを回避する方法を知っていますか? /opt/scala、、、または(Windows のみ)。特定のユーザーにネイティブ インストールと相対パスを使用したい。/opt/local/scala/usr/local/scala~/scalasparklyr