問題タブ [sparkr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
shell - ライブラリ パッケージが oozie で動作しない
こんにちは、シェル スクリプトで oozie を実行しています。そのシェル スクリプトでは、sparkR ジョブを使用しています。oozie ジョブを実行するたびに、ライブラリでエラーが発生します。
ここに私のエラーがあります。
私のjob.propertiesファイル
oozieProjectRoot=shell_example oozie.wf.application.path=${oozieProjectRoot}/apps/shell
私のワークフロー.xml
私のシェルスクリプトファイル
問題を解決する方法がわかりません。助けていただければ幸いです...
apache-spark - RStudioでSparkのexecutorコアを制限するには?
sparkR コマンド シェルを使用している場合は、次のように 1 つのエグゼキューター コアに制限できます。
RStudio では、次のようにクラスターに正常に接続できます。
そこにいくつかの魔法のパラメーターを渡してコアの数を設定できると思いますが、方法がわかりません。https://spark.apache.org/docs/latest/api/R/sparkR.init.htmlはあまり役に立ちませんが、この時点に到達しました。
および/または
これらは正常に接続しますが、コアを制限しません。魔法のプロパティ名が間違っているのか、それとも何か他のものがあるのか わかりませんか?
r - SparkR の DataFrame のタイムスタンプで行をフィルター処理する
DataFrame
次のような形式のタイム スタンプで SparkRの行をフィルター処理したい:
TimeStamp
列の元のスキーマは であることに注意してくださいString
。の前にそれらのタイムスタンプをフィルタリングしたいとし03/01/2015 00:00:00
ます。これを行うには 2 つの方法があると思います。
timestamp
1 つは、通常の R のように列を変更し、 dplyr
and を使用することlubridate
です。
しかし、ベクトルではなくDataFrame
S4 クラスであるため、列の変更に失敗しました。Column
2番目のアプローチはDataFrame
、をテーブルとして登録してから、タイプSparkSQL
を処理するために使用することです。timestamp
しかし、これはまだ文字列比較であるため、間違った結果が得られます。これを行う正しい方法は何ですか?
r - sparkr をデータフレームに収集する
いくつかのデータを sparkR (Spark バージョン 1.4.0、fedora21 で実行) にロードして、3 つの異なる数値を生成するアルゴリズムを実行しています。私のアルゴリズムは一連のパラメーターを使用し、同じデータに対して異なるパラメーター設定を実行したいと考えています。出力形式はデータフレーム (または csv リスト) である必要があり、その列はアルゴリズムのパラメーターであり、アルゴリズムが計算する 3 つの数値です。つまり、
2 つの異なるパラメーター設定の出力になります。以下のスクリプトは、異なるパラメーター設定での実行を並列化するものです。パラメーター値を引数として入力ファイルを受け取ります。上記の例では、次のようになります。
したがって、1 行に 1 つのパラメータの組み合わせです。
これが私の問題です。パラメーター設定ごとに1つ取得する代わりに、すべての数値が1つの長いリストに結合されます。関数 cv_spark は data.frame (基本的には 1 行) を返します。cv_spark の出力をデータフレーム (つまり、rbind のようなこと) またはリストのリストに結合するように spark に指示するにはどうすればよいですか?
r - SparkR のユーザー定義集計関数
次のようなメールの記録があります。
次のように作成できますDataFrame
。
私は、彼/彼女に送信された最新の 2 つのメールのいずれかに誰が返信したかを知りたいので、要約ヘルパー関数を使用して、次のdplyr
ことができます。
結果は次のとおりです。
SparkR
これを on で、つまりDataFrame
on local ではなくonで実行したいと考えていますdata.frame
。だから私は試しました:
次に、関数が S4 クラスでは機能しないというエラーが表示されましDataFrame
た。でこれを正しく行う方法はSparkR
? またはsqlContext
によって作成されたSQL クエリを使用したソリューションも歓迎します。sparkRHive.init
sparkRSQL.init
sparkr - How to subtract elements in a DataFrame
In SparkR I have a DataFrame data
contains id
, amount_spent
and amount_won
.
For example for id=1 we have
and output is
So far I want to know if a fixed id has more won than losses. The amount can be ignored.
In R I can make it to run but it takes time. Say we have 100 id's. In R I have done this
Now w simply gives me 1's and 0's for all the id's. In sparkR I want to do this a more faster way.
r - sparkR読み取りcsvエラー戻りステータス== 0はTRUEではありません
を使用してスパークシェルを開始しました
今、sparkRシェルでcsvを読み込もうとしています
しかし、毎回エラーが発生します
エラー: returnStatus == 0 は TRUE ではありません
sparkR シェルの起動中のログは次のとおりです。