問題タブ [sparklyr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 糸で管理された Hadoop クラスターにデプロイされた spark で sparklyr を使用できますか?
sparklyr
R パッケージはYARN 管理の Hadoop クラスターに接続できますか? これは、クラスター展開のドキュメントには記載されていないようです。SparkR
Spark に同梱されているパッケージを使用すると、次のように実行できます。
ただし、上記の最後の行を
エラーが発生します:
sparklyr
パッケージの代替品ですか、それともパッケージSparkR
の上に構築されていSparkR
ますか?
r - Rstudio で R を Spark に接続 - Spark シェルの起動に失敗しました。ポートファイルが存在しません
Rstudio を使用して R を Spark のローカル インスタンスに接続しようとしています。ただし、エラーメッセージが表示されます。私は何が欠けていますか?Windows 10 を使用しています。rstudioのチュートリアルに従っています。
私が得ているエラーメッセージ:
r - sparklyr でネイティブ R コードまたは他の R パッケージ関数を使用することは可能ですか?
ここでの例に沿って従うことができるポイントに到達しました(config=list()
入力引数に追加するというわずかな変更のみ)。
ただし、他の R 関数を使用しようとすると、dplyr
うまくいかないことがあります。
明らかにgrepl
サポートされていません。私の質問は: ベース R または R パッケージ関数を使用する方法はありますか? そうでない場合、それは来ますか?これらの線に沿った作業はdapply
とv2gapply
で進行しているようですSparkR
が、 で動作する場合は素晴らしいことsparklyr
です。
r - sparklyr でネストされたデータを処理する方法はありますか?
次の例では、フィールド内のマップ オブジェクトのネストされたレコードを含む寄木細工のファイルを読み込んでいmeta
ます。sparklyr
これらをうまく処理しているようです。ただしtidyr::unnest
、SQL (または HQL - 当然のことながら - のようなものLATERAL VIEW explode()
) には変換されないため、使用できません。他の方法でデータのネストを解除する方法はありますか?
また、データを収集する際にも問題があります。例えば、
上記のmeta
ファイルspark_jobj
には、リスト、data.frames、さらには JSON 文字列 (Hive がそのようなデータを返す方法) の代わりに要素がまだ含まれています。tidyr
これにより、収集されたデータでさえ機能しない状況が作成されます。
私が行方不明になっていることsparklyr
で、よりうまく仕事をする方法はありますか? tidyr
そうでない場合、これは将来のsparklyr
開発で計画されていますか?
r - SparkR と Sparklyr
SparkR と sparklyr の長所/短所に関する概要を知っている人はいますか? Google では満足のいく結果が得られず、どちらもかなり似ているようです。両方を試してみると、SparkR はかなり面倒に見えますが、sparklyr はかなり簡単です (インストールするだけでなく、特に dplyr 入力で使用することもできます)。sparklyr は、dplyr 関数を並列または「通常の」R コードで実行するためにのみ使用できますか?
一番
r - sparklyr をリモートスパーク接続に接続する
ローカル デスクトップの RStudio セッションを、sparklyr を介してリモートの spark セッションに接続したいと考えています。RStudio の sparklyr ui タブで新しい接続を追加し、クラスターを選択すると、クラスターで実行するか、クラスターへの高帯域幅接続が必要であると表示されます。
その種の接続を作成する方法を明らかにできる人はいますか? これの再現可能な例を作成する方法はわかりませんが、一般的にやりたいことは次のとおりです。
リモートサーバーから。特にリモート間でデータをやり取りしようとすると、遅延が発生することを理解しています。また、実際のクラスターに rstudio-server を配置した方がよいことも理解していますが、それが常に可能であるとは限りません。サーバーとデスクトップ RStudio セッションの間で対話するための sparklyr オプションを探しています。ありがとう。