問題タブ [sparkr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
305 参照

shell - ライブラリ パッケージが oozie で動作しない

こんにちは、シェル スクリプトで oozie を実行しています。そのシェル スクリプトでは、sparkR ジョブを使用しています。oozie ジョブを実行するたびに、ライブラリでエラーが発生します。

ここに私のエラーがあります。

私のjob.propertiesファイル

oozieProjectRoot=shell_example oozie.wf.application.path=${oozieProjectRoot}/apps/shell

私のワークフロー.xml

私のシェルスクリプトファイル

問題を解決する方法がわかりません。助けていただければ幸いです...

0 投票する
0 に答える
244 参照

apache-spark - RStudioでSparkのexecutorコアを制限するには?

sparkR コマンド シェルを使用している場合は、次のように 1 つのエグゼキューター コアに制限できます。

RStudio では、次のようにクラスターに正常に接続できます。

そこにいくつかの魔法のパラメーターを渡してコアの数を設定できると思いますが、方法がわかりません。https://spark.apache.org/docs/latest/api/R/sparkR.init.htmlはあまり役に立ちませんが、この時点に到達しました。

および/または

これらは正常に接続しますが、コアを制限しません。魔法のプロパティ名が間違っているのか、それとも何か他のものがあるのか​​ わかりませんか?

0 投票する
1 に答える
1209 参照

r - SparkR の DataFrame のタイムスタンプで行をフィルター処理する

DataFrame次のような形式のタイム スタンプで SparkRの行をフィルター処理したい:

TimeStamp列の元のスキーマは であることに注意してくださいString。の前にそれらのタイムスタンプをフィルタリングしたいとし03/01/2015 00:00:00ます。これを行うには 2 つの方法があると思います。

timestamp1 つは、通常の R のように列を変更し、 dplyrand を使用することlubridateです。

しかし、ベクトルではなくDataFrameS4 クラスであるため、列の変更に失敗しました。Column

2番目のアプローチはDataFrame、をテーブルとして登録してから、タイプSparkSQLを処理するために使用することです。timestamp

しかし、これはまだ文字列比較であるため、間違った結果が得られます。これを行う正しい方法は何ですか?

0 投票する
1 に答える
2072 参照

r - sparkr をデータフレームに収集する

いくつかのデータを sparkR (Spark バージョン 1.4.0、fedora21 で実行) にロードして、3 つの異なる数値を生成するアルゴリズムを実行しています。私のアルゴリズムは一連のパラメーターを使用し、同じデータに対して異なるパラメーター設定を実行したいと考えています。出力形式はデータフレーム (または csv リスト) である必要があり、その列はアルゴリズムのパラメーターであり、アルゴリズムが計算する 3 つの数値です。つまり、

2 つの異なるパラメーター設定の出力になります。以下のスクリプトは、異なるパラメーター設定での実行を並列化するものです。パラメーター値を引数として入力ファイルを受け取ります。上記の例では、次のようになります。

したがって、1 行に 1 つのパラメータの組み合わせです。

これが私の問題です。パラメーター設定ごとに1つ取得する代わりに、すべての数値が1つの長いリストに結合されます。関数 cv_spark は data.frame (基本的には 1 行) を返します。cv_spark の出力をデータフレーム (つまり、rbind のようなこと) またはリストのリストに結合するように spark に指示するにはどうすればよいですか?

0 投票する
1 に答える
1179 参照

r - SparkR のユーザー定義集計関数

次のようなメールの記録があります。

次のように作成できますDataFrame

私は、彼/彼女に送信された最新の 2 つのメールのいずれかに誰が返信したかを知りたいので、要約ヘルパー関数を使用して、次のdplyrことができます。

結果は次のとおりです。

SparkRこれを on で、つまりDataFrameon local ではなくonで実行したいと考えていますdata.frame。だから私は試しました:

次に、関数が S4 クラスでは機能しないというエラーが表示されましDataFrameた。でこれを正しく行う方法はSparkR? またはsqlContextによって作成されたSQL クエリを使用したソリューションも歓迎します。sparkRHive.initsparkRSQL.init

0 投票する
1 に答える
91 参照

sparkr - How to subtract elements in a DataFrame

In SparkR I have a DataFrame data contains id, amount_spent and amount_won.

For example for id=1 we have

and output is

So far I want to know if a fixed id has more won than losses. The amount can be ignored.

In R I can make it to run but it takes time. Say we have 100 id's. In R I have done this

Now w simply gives me 1's and 0's for all the id's. In sparkR I want to do this a more faster way.

0 投票する
1 に答える
592 参照

r - sparkR読み取りcsvエラー戻りステータス== 0はTRUEではありません

を使用してスパークシェルを開始しました

今、sparkRシェルでcsvを読み込もうとしています

しかし、毎回エラーが発生します

エラー: returnStatus == 0 は TRUE ではありません

sparkR シェルの起動中のログは次のとおりです。