問題タブ [sparkr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2211 参照

r - sparkR で getItem(x, ...) を使用する方法と、列の特定の値をサブセット化する方法は?

私はsparkRデータフレームを持っています.Rで使用する列からcust_sales値のみを抽出する必要があります.CQ98901282cust_idcust_sales$cust_id[3]

私の提案はgetItem(x, ...)、抽出に使用できるかということです。そうであれば、引数「x」は列になりますcust_sales$cust_id

  1. 引数「...」に何が来るか
  2. 私の提案が間違っている場合、getItem(x, ...)私の例での使用方法と使用方法を教えてください。

    /li>

ティア、アルン

0 投票する
0 に答える
278 参照

r - SparkR の NULL に対する AVRO 形式の警告

RStudio で SparkR を使用しています。hiveContextからデータを抽出するために使用しようとしていますHive/HDFS。データにはフォーマットがあるように見えますが、データベース内AVROの s が適切に宣言されていないため競合しているようです。関数NULLを使用してデータをロードしようとすると、次のような警告が表示されます。SparkR::sql

このエラーを克服する解決策を提案できる人はいますか?

0 投票する
3 に答える
1221 参照

r - SparkR で DataFrame の特定の列を並べ替えるには

SparkR には DataFrame がありますdatatimegameおよびが含まれていますid

次に ID = 1 4 1 1 215 985 ..., game= 1 5 1 10 と time 2012-2-1, 2013-9-9, ... を与え、game1 から 10 までの数字であるゲームタイプを含みます。

特定のゲームタイプについて、最小時間、つまりこのゲームが初めてプレイされた時間を見つけたいと考えています。ゲームタイプ1の場合、これを行います

この新しいデータには、ゲームタイプ 1 のすべてのデータが含まれています。最小時間を見つけるには、次のようにします。

しかし、これは sparkR では実行できません。「タイプS4のオブジェクトはサブセット化できません」と表示されます。

ゲーム 1 は 2012 年 1 月 2 日、2013 年 5 月 4 日、2011 年 1 月 4 日、... 最小時間を見つけたいと思います。

0 投票する
2 に答える
1831 参照

r - SparkR 1.5 を使用して RStudio の hdfs から大きなファイル (純粋なテキスト、xml、json、csv) を読み取るためのオプション

Spark を初めて使用するので、SparkR を使用して RStudio から hdfs に格納されたデータを読み取るための以下のオプション以外のオプションがあるかどうか、またはそれらを正しく使用しているかどうかを知りたいです。データは、任意の種類 (純粋なテキスト、csv、json、xml、またはリレーショナル テーブルを含む任意のデータベース) で、任意のサイズ (1kb ~ 数 gb) である可能性があります。

textFile(sc, path) はもう使用すべきではないことはわかっていますが、 read.df 関数以外にそのような種類のデータを読み取る可能性はありますか?

次のコードは read.df と jsonFile を使用していますが、jsonFile はエラーを生成します。

read.df は json で機能しますが、改行で区切られているだけのログ メッセージなどのテキストを読み取るにはどうすればよいですか? 例えば

jsonFile のエラーは次のとおりです。

SparkR を再起動したり、SparkR.stop() を呼び出したりしていないため、read.df がエラーをスローする理由がわかりません。

read.df を使用する以外の同じコードでは、sqlContext の代わりに SparkR:::textFile 関数と sc を使用します (古いamplabの紹介に従ってください)。

エラーメッセージは次のとおりです。

このエラーは、パスが正しくないように見えますが、その理由はわかりません。

私が現在使用しているもの:

spark-1.5.0-bin-hadoop2.6 hadoop-2.6.0 Windows(8.1) R バージョン 3.2.2 Rstudio バージョン 0.99.484

ここで、誰かがこの問題に関するヒントを教えてくれることを願っています。

0 投票する
1 に答える
3260 参照

r - CRAN RパッケージリストでSparkRが利用できないのはなぜですか?

次のリンクから、CRANパッケージリストでsparkRパッケージを確認しました。

https://cran.r-project.org/web/packages/available_packages_by_date.html

このリストには sparkR が含まれていないため、sparkR を介してインストールするinstall.packages("package_name")ことはできません。

パッケージリストにsparkRがリストされていないのはなぜですか?

0 投票する
1 に答える
2723 参照

r - RStudio から YARN で新しい Spark コンテキストと実行者番号を初期化する方法

私はで働いていSparkRます。

必要な数の次のコマンドexecutorsを使用して、YARN に Spark コンテキストを設定できます。executor-cores

今、私は新しいSparkコンテキストを初期化しようとしていますが、通常のコマンドラインよりも快適に作業できるRStudioからです。

これを行うには、sparkR.init()関数を使用する必要があることがわかりました。masterに設定したオプションがありますが、yarn-client指定方法num-executorsまたはexecutor-cores? 積み上げたところです

0 投票する
1 に答える
55 参照

sparkr - unionAll 関数は sparkR で実行できません

SparkR には DataFrame がdataあり、それも含まidれています。私もliste= 2 9 12 102 154 ... 1451whereを持っていlength(liste)=3001ます。dataID が liste に等しいエントリが必要です。sparkRではこれを行います

これらの 10 回の反復には、約 5 分という長い時間がかかります。すべての反復、つまり 3001 を実行したい場合、sparkR は「エラー returnstatus==0 は true ではありません」と言います。これをどのように解決する必要がありますか?