問題タブ [sparklyr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
7309 参照

r - 糸で管理された Hadoop クラスターにデプロイされた spark で sparklyr を使用できますか?

sparklyrR パッケージはYARN 管理の Hadoop クラスターに接続できますか? これは、クラスター展開のドキュメントには記載されていないようです。SparkRSpark に同梱されているパッケージを使用すると、次のように実行できます。

ただし、上記の最後の行を

エラーが発生します:

sparklyrパッケージの代替品ですか、それともパッケージSparkRの上に構築されていSparkRますか?

0 投票する
1 に答える
808 参照

r - Rstudio で R を Spark に接続 - Spark シェルの起動に失敗しました。ポートファイルが存在しません

Rstudio を使用して R を Spark のローカル インスタンスに接続しようとしています。ただし、エラーメッセージが表示されます。私は何が欠けていますか?Windows 10 を使用しています。rstudioのチュートリアルに従っています。

私が得ているエラーメッセージ:

0 投票する
1 に答える
542 参照

r - sparklyr でネイティブ R コードまたは他の R パッケージ関数を使用することは可能ですか?

ここでの例に沿って従うことができるポイントに到達しました(config=list()入力引数に追加するというわずかな変更のみ)。

ただし、他の R 関数を使用しようとすると、dplyrうまくいかないことがあります。

明らかにgreplサポートされていません。私の質問は: ベース R または R パッケージ関数を使用する方法はありますか? そうでない場合、それは来ますか?これらの線に沿った作業はdapplyとv2gapplyで進行しているようですSparkRが、 で動作する場合は素晴らしいことsparklyrです。

0 投票する
4 に答える
1739 参照

r - sparklyr でネストされたデータを処理する方法はありますか?

次の例では、フィールド内のマップ オブジェクトのネストされたレコードを含む寄木細工のファイルを読み込んでいmetaます。sparklyrこれらをうまく処理しているようです。ただしtidyr::unnest、SQL (または HQL - 当然のことながら - のようなものLATERAL VIEW explode()) には変換されないため、使用できません。他の方法でデータのネストを解除する方法はありますか?

また、データを収集する際にも問題があります。例えば、

上記のmetaファイルspark_jobjには、リスト、data.frames、さらには JSON 文字列 (Hive がそのようなデータを返す方法) の代わりに要素がまだ含まれています。tidyrこれにより、収集されたデータでさえ機能しない状況が作成されます。

私が行方不明になっていることsparklyrで、よりうまく仕事をする方法はありますか? tidyrそうでない場合、これは将来のsparklyr開発で計画されていますか?

0 投票する
7 に答える
21264 参照

r - SparkR と Sparklyr

SparkR と sparklyr の長所/短所に関する概要を知っている人はいますか? Google では満足のいく結果が得られず、どちらもかなり似ているようです。両方を試してみると、SparkR はかなり面倒に見えますが、sparklyr はかなり簡単です (インストールするだけでなく、特に dplyr 入力で使用することもできます)。sparklyr は、dplyr 関数を並列または「通常の」R コードで実行するためにのみ使用できますか?

一番

0 投票する
3 に答える
6749 参照

r - sparklyr をリモートスパーク接続に接続する

ローカル デスクトップの RStudio セッションを、sparklyr を介してリモートの spark セッションに接続したいと考えています。RStudio の sparklyr ui タブで新しい接続を追加し、クラスターを選択すると、クラスターで実行するか、クラスターへの高帯域幅接続が必要であると表示されます。

その種の接続を作成する方法を明らかにできる人はいますか? これの再現可能な例を作成する方法はわかりませんが、一般的にやりたいことは次のとおりです。

リモートサーバーから。特にリモート間でデータをやり取りしようとすると、遅延が発生することを理解しています。また、実際のクラスターに rstudio-server を配置した方がよいことも理解していますが、それが常に可能であるとは限りません。サーバーとデスクトップ RStudio セッションの間で対話するための sparklyr オプションを探しています。ありがとう。