問題タブ [sparklyr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - SparkRを介してSQLテーブルをrにロードできません
sparkR を使用して R に SQL テーブルをロードしようとしています。次のコードがあります。
このコードをそのまま実行すると、次のエラーが発生します。
誰かが問題の可能性についてヒントを与えることができますか?
前もって感謝します
r - SparkR と Sparklyr を同時に使用する
私が理解している限りでは、これら 2 つのパッケージは Apache Spark に対して似ているがほとんど異なるラッパー関数を提供します。Sparklyr は新しく、機能の範囲を拡大する必要があります。したがって、機能の全範囲を取得するには、現在両方のパッケージを使用する必要があると思います。
どちらのパッケージも基本的に、scala クラスの Java インスタンスへの参照をラップしているため、パッケージを並行して使用できるはずです。しかし、それは実際に可能ですか?ベストプラクティスは何ですか?
r - Sparklyr 用に Windows に Spark をインストールする
Windows 環境で Spark と Hadoop をセットアップするためのチュートリアルをいくつか試しましたが、特に R と一緒に使用しました。 このチュートリアルでは、図 9 に到達するまでにこのエラーが発生しました。
Rstudio のこのチュートリアルでも問題が発生しています。に着いたら
sc <- spark_connect(master = "local")
ステップ、私はこのおなじみのエラーが表示されます:
このポートの問題は、Ms. Zaidi のチュートリアル (こちら"yarn-client"
) から試したときに、パラメーターを内部に割り当てようとしたときに発生する問題と似ています。(このチュートリアルには独自の問題があり、興味のある方はこちらの掲示板に投稿しました。)spark_connect(...)
Ubuntu VM を最初にインストールする場合は、TutorialsPointウォークスルーでうまくいきますが、私は Microsoft R(RO) を使用しているので、Windows でこれを理解したいと思います。では実行できないコマンドを実行できる最初のチュートリアル.\bin\sparkR
。
最も一般的には、Windowsで、できればsparklyrを使用してSparkをRと一緒にインストールして実行する方法を理解しようとしています。
更新 1: これは、ディレクトリにあるものです。
更新 2: これは私の R セッションとシステム情報です
r - SparkR と Sparklyr を使用した Spark データ フレームの操作 - 非現実的な設定ですか?
現在、SparkR と sparklyr パッケージを使用していますが、これらは高次元のスパース データ セットには適していないと思います。
どちらのパッケージにも、いくつかの列または行の単純な論理条件によって、データ フレームの列と行を選択/フィルター処理できるパラダイムがあります。しかし、これは多くの場合、そのような大規模なデータ セットに対して行うことではありません。そこでは、何百もの行または列エントリの値に基づいて行と列を選択する必要があります。多くの場合、最初に各行/列の統計を計算してから、これらの値を選択に使用する必要があります。または、データ フレームのみの特定の値に対処する必要があります。
例えば、
欠損値が 75% 未満のすべての行または列を選択するにはどうすればよいですか?
各列または行から導出された列または行固有の値で欠損値を代入するにはどうすればよいですか?
(#2) を解決するには、データ フレームの各行または列に対して個別に関数を実行する必要があります。ただし、SparkR の dapplyCollect のような関数でさえ、遅すぎるため、実際には役に立ちません。
何かが足りないのかもしれませんが、SparkR と sparklyr はこれらの状況ではあまり役に立ちません。私が間違っている?
余談ですが、欠損値の処理などの厳しい制限がある場合、 MLlib や H2O などのライブラリを Sparklyrと統合する方法がわかりません。
r - R で Sparklyr を使用して .csv ファイルを読み取る
サイズが 2 GB を超える.csv
ファイルがいくつかあります。C:\Users\USER_NAME\Documents
Apache Spark を使用して、R でそれらからデータを読み取りたいと考えています。Microsoft R Open 3.3.1 と Spark 2.0.1 を使用しています。
パッケージで定義され.csv
た関数を使用してファイルを読み取ることに固執しています。で始まるファイルパスを要求しています。ディレクトリにあるファイル名で始まり、ファイル名で終わる、私の場合の適切なファイルパスを知りたいです。spark_read_csv(...)
Sparklyr
file://
file://
.../Documents
r - sparklyr hadoop構成
この質問は、実行中の spark コンテキスト (以下では sc として参照) を伴うため、完全に再現可能にするのが難しいことをお詫びしますが、sparklyr で hadoopConfiguration を設定しようとしています。特に、RStudio sparklyr からの swift/objectStore オブジェクトにSpark オブジェクトですが、一般的には hadoopConfiguration への scala 呼び出し用です。(scala コード) のようなもの:
ここで、sc は実行中の Spark コンテキストです。SparkR で実行できます (R コード)
sparklyr では、私が考えているすべての呪文を試しましたが、私の最善の推測は (再び R コード)
しかし、これにより、次の詳細でないエラー (および不規則なスペル) が発生します。
もちろん、考えられるあらゆる方法で入力をエンコードしようとしました (当然 enc2utf8(value) が最初ですが、リストや as.character(as.list(...)) を含む他の多くの方法は、 sparklyr コーダーのお気に入り)。どんな提案でも大歓迎です。sparklyr のソース コードをくまなく調べたところ、sparklyr github で hadoopConfiguration に関する言及が見つからないため、コア構成で非常に基本的なものが欠けているのではないかと心配しています。また、spark_connect() コア呼び出しの config.yml でこれらの構成を渡そうとしましたが、これは「fs.swift.service.keystone.auth.url」を sc$config$s として設定する際に機能しています。 swift.service.keystone.auth.url の設定では、これらをコアの hadoopConfiguration として設定できていないようです。
ちなみに、Spark1.6、scala 2.10、R 3.2.1、sparklyr_0.4.19 を使用しています。
r - SparklyR が Spark コンテキストからテーブルを削除する
Spark コンテキスト ('sc') から単一のデータ テーブルを削除したいと考えています。単一のキャッシュされたテーブルをキャッシュ解除できることは知っていますが、これは sc からオブジェクトを削除することと同じではありません - 私が収集できる限り。
完全な sc を切断するには、 を使用spark_disconnect(sc)
しますが、この例では、sc 内に格納されている「タイタニック」テーブルと「バッティング」テーブルの両方が破棄されます。
むしろ、例えば「バッティング」を のようなもので削除したいのですspark_disconnect(sc, tableToRemove = "batting")
が、これは不可能のようです。
r - mutate と lag を使用して 2 つの列を作成すると、sparklyr AnalysisException が発生する
次のdata.frameがあります:
作成したら、sparklyrを使用して Spark にコピーできます。
作成したらmutate
、関数を使用して別の列を作成して、列を作成できlag
ます。
mutate
関数を使用して複数の列を作成しようとすると、問題が発生しますlag
。たとえば、ここでは、列 A と B の "ラグ" である 2 つの新しい列 E と F を作成します。
ただし、この例外は、2 つの列を作成しても 1 回しか使用しない場合には発生しませんlag
。次に例を示します。
何らかの理由で、アクションlag()
内で 2 つの呼び出しが実行されたときに例外が発生します。と のさまざまな組み合わせとのさまざまな配置をmutate
(失敗して) 試しました。それらはすべて同じ例外を発生させますが、これは理解できません。Spark コードを見ると、ここで例外が発生していることがわかります。lag()
lead()
mutate
チェックに失敗したウィンドウ関数の状態に関連していることは理解していlag
ますが、ここでの根本的な問題はよくわかりません。どんな助け/アイデアも大歓迎です。
r - SparklyR Spark install を使用して R で Scala コードを実行する
Spark のインストールに含まれるカスタムscalac
(Scala Compiler)の使用を検討しています。sparklyr
RStudio SparkUI タブ (または からspark_web(sc)
) >> 環境 >> /jars/scala-compiler-2.11.8.jar
「システム環境」として見つかりますscalac
。ベースディレクトリに個別にダウンロードしてインストールするのではなく、ここにあり、RStudio からリンクされている「hello world」の例で提案されているように拡張機能の作成に関するページhttp://spark.rstudio.com/extensions.html。
これは、Ubuntuを使用してこれまでに得たものですが、以下のエラーで失速しました。上記の「hello world」の例で使用した Github-repo とまったく同じディレクトリをセットアップしました。提案されたベース パス フォルダのいずれかにインストールせずに、このエラーを回避する方法を知っていますか? /opt/scala
、、、または(Windows のみ)。特定のユーザーにネイティブ インストールと相対パスを使用したい。/opt/local/scala
/usr/local/scala
~/scala
sparklyr